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Linux 内 核 爱 好 者 ， 曾 在 多 家 大 中 
型 软件 公司 从 事 软件 开发 工作 ， 参 
与 过 多 款 高 端 谋 入 式 产 品 的 开发 研 
制 ， 主 要 负责 Linux 内 核 和 驱动 的 
研发 ， 以 及 开源 操作 系统 环境 的 深 
度 定 制 。 
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内 容 提要 


本 书 讲述 了 一 个 64 位 多 核 操作 系统 的 自制 过 程 。 首 先 从 虚拟 平台 构筑 起 一 个 基础 框架 ， 
础 框架 移植 到 物理 平台 中 进行 升级 、 完 善 与 优化 。 为 了 上 四 显 64 位 多 核 操 作 系统 的 特点 ， 物 到 


随后 再 将 基 
平台 选用 措 


载 着 mtel Core i7 处 理 器 的 笔记 本 电脑 。 与 此 同时 ， 本 书 还 将 Linux 内 核 的 源码 精髓 、 诸 多 官方 白皮书 以 
及 多 款 常 用 协议 浓缩 于 其 中 ， 可 使 读者 在 读 完 本 书后 能 够 学 以 致 用 ， 进 而 达到 理论 联系 实际 的 目的 。 

全 书 共 16 章 。 第 1~2 章 讲述 了 操作 系统 的 基础 概念 和 开发 操作 系统 需要 掌握 的 知识 ; 第 3~5 章 在 虚 
拟 平台 下 快速 构建 起 一 个 操作 系统 模型 ; 第 6~16 章 将 在 物理 平台 下 对 操作 系统 模型 做 进一步 升级 、 优 化 


和 完善 。 


本 书 既 适 合 在 校 学习 理 论 知识 的 初学 者 ， 又 适合 在 职工 作 的 软件 工程 师 或 有 一 定 基 础 的 业余 爱好 者 。 
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这 不 是 一 本 由 几 万 行 代码 简单 罗列 成 的 书 ， 也 不 是 一 本 由 各 种 技术 文档 堆砌 成 的 书 。 当 你 在 学 习 
计算 机 操作 系统 原理 时 迷失 了 方向 ， 它 会 为 你 点 亮 一 蔓 灯 ， 照 亮 前 方 的 路 。 

计算 机 相关 专业 的 读者 们 在 大 学 时 都 学 习 过 《操作 系统 》 这 门 课程 。 对 于 什么 是 操作 系统 ， 老 师 
们 普遍 以 理论 概念 为 主 进行 教授 ,比如 ,什么 是 进程 ,什么 是 线程 ,什么 是 文件 系统 等 知识 点 。 可 是 ， 
像 进程 与 线程 的 创建 过 程 、 空 间 换 时 间 的 应 用 场景 等 内 容 却 鲜 有 提 及 。 以 上 这 些 问题 ,我 在 学 生 时 代 
的 时 候 特别 想 弄 清楚 ,但 却 无 从 着 手 ， 就 算 有 些 思路 ， 也 因为 学 艺 不 精 ， 半 途 而 废 了 。 即 使 向 老师 们 
请 教 ， 也 只 得 到 理论 性 的 解释 ， 无 法 获得 清晰 、 准 确 、 具 体 的 答案 。 我 想 ， 也 许 正在 阅读 本 书 的 你 们 
也 难以 将 其 缘由 娓 九 道 来 。 不 过 ， 可 能 有 些 人 觉得 没有 必要 非常 清楚 这 些 问 题 ， 以 前 的 我 也 曾 有 过 此 
种 想法 。 待 到 有 幸 从 事 几 年 Linux 内 核 级 的 研发 工作 后 ， 我 才 逐 渐 对 上 述 问题 有 了 比较 直观 、 深 刻 的 
认 知 ， 并 且慢 慢 体会 到 ， 如 果 不 清楚 操作 系统 原理 ， 某 些 问题 解决 起 来 非常 困难 。 

在 计算 机 领域 ， 中 国 的 发 展 速度 仍然 落后 于 发 达 国 家 ， 师 资 力量 不 足 是 在 所 难免 的 。 一 些 学 校 只 
是 概括 性 地 传授 微机 原理 、 汇 编 语言 、 计 算 机 组 成 原理 、 编 译 原 理 、 操 作 系统 等 基础 知识 ， 甚 至 还 可 
能 只 将 它们 作为 选修 课程 。 当 时 作为 学 生 的 我 觉得 这 些 课 程 不 重要 ， 没 有 认真 细致 学 习 ， 但 在 工作 多 
年 的 反思 中 才 发 现 ,它们 是 融会 贯通 计算 机 领域 的 必要 知识 ,它们 往往 决定 了 一 个 人 能 在 计算 机 行业 
走 多 远 。 而 且 ， 目 前 中 国 软件 行业 仍 以 外 包 为 主 ， 能 够 静 下 心 来 做 技术 储备 、 基 础 知识 培训 的 自主 研 
发 型 公司 少 之 又 少 ， 这 种 局 面 使 得 我 们 想 在 工作 中 弥补 基础 知识 依然 十 分 困难 。 

现今 ， 网 络 上 已 有 不 少 关 于 操作 系统 实践 类 的 文章 和 图 书 ,， 这些 文章 和 图 书 作为 入 门 学 习 是 很 不 
错 的 选择 。 可 是 ， 这 些 文章 和 图 书 内 容 的 一 个 通病 是 ， 操 作 系 统 普 遍 采 用 Intel 32 位 处 理 器 的 虚拟 平 
台 进 行 开发 、 研 制 。 这 个 32 位 处 理 器 的 虚拟 平台 虽然 学 起 来 简单 ， 但 如 果 用 到 工作 中 举一反三 的 话 ， 
还 是 存在 诸多 差距 与 不 足 。 比 较 典 型 的 例子 有 ， 虚 拟 平台 与 物理 平台 在 软 硬 件 执行 流程 上 的 差异 、 多 
核 处 理 器 间 的 通信 机 制 、 高 级 中 断 控制 器 的 配置 、 先 进 的 64 位 处 理 器 体系 结构 等 ， 这 些 问 题 难 以 正 
确 分 析 、 推 理 及 解决 ， 会 导致 理论 与 实践 脱节 。 

出 于 以 上 种 种 原因 ， 作 者 想 通过 一 系列 图 书 把 现代 操作 系统 的 真实 面貌 展现 给 读者 ， 并 和 希望 借 此 
寻找 有 兴趣 和 有 能 力 的 朋友 们 一 起 开发 这 款 操作 系统 。 考 虑 到 对 操作 系统 感 兴趣 的 读者 不 在 少数 ， 基 
础 知识 的 掌握 水 平 势必 参差 不 齐 。 为 了 照顾 到 各 个 方面 ,本 书 将 尽量 做 到 既 适 合 在 校 学 习 理 论 知识 的 
初学 者 ， 又 适合 在 职工 作 的 软件 工程 师 或 有 一 定 基 础 的 业余 爱好 者 。 

这 是 一 个 基于 Intel 处 理 器 IA-32e 体系 结构 编写 的 操作 系统 雏形 。 虽 说 它 只 是 一 个 操作 系统 雏形 ， 
但 为 了 使 读者 能 够 在 学 习 Linux 内 核 源 代码 时 得 到 一 些 助 力 ， 本 系统 还 将 Linux 内 核 的 精髓 提炼 自 
多 版 Linux 内 核 ) 融入 其 中 ， 并 以 物理 平台 作为 主要 运行 环境 、 虚 拟 平台 作为 辅助 运行 环境 。IA-32e 


体系 结构 可 以 通俗 理解 为 “64 位 处 理 器 "。 阅 读 过 Intel 技术 文档 的 读者 应 该 知道 ，64 位 处 理 器 是 在 原 
有 32 位 处 理 器 的 基础 上 扩展 而 得 的 ， 其 对 32 位 处 理 器 的 运算 速度 、 数 据 带 宽 乃 至 运行 时 的 高 效 性 、 
安全 性 都 进行 了 全 面 升级 与 优化 。 因 此 ，64 位 操作 系统 比 32 位 操作 系统 “ 快 ”是 有 诸多 理由 的 ， 这 


些 理由 很 难 用 几 句 话 解 释 清楚 。 


本 书 从 计算 机 上 电 启 动 开 始 ， 循序 渐进 地 实现 了 一 个 64 位 操作 系统 的 锥 形 。 先 介绍 一 下 本 书 操 作 
系统 的 硬件 运行 环境 。 作 者 使 用 Lenovo ThinkPad X220T 笔记 本 电脑 作为 操作 系统 的 物理 平台 ， 其 上 搭 


载 着 一 枚 Intel (R) Core (TM)i7-2620 M CPU @ 2.70 GHz ( 这 是 
双核 四 线程 处 理 器 ， 并 配 有 8 GB 容量 的 物理 


字符 将 在 正文 


EE 内存。 如 果 条 件 允 询 


平台 下 运行 操作 系统 ， 怎 能 少 得 了 U 盘 引 导 呢 

时 至 今日 ,我 依然 能 够 清晰 回忆 起 当初 编写 这 个 操作 系统 时 遇 到 的 各 种 困难 
次 挫败 、 前 熬 与 月 泪 。 此 刻 ， 当 你 们 读 到 本 书 时 ， 说 明 那 些 困难 
失败 才 真正 可 怕 。 当 你 意识 到 失败 只 不 过 是 弯路 时 ， 你 就 已 经 走 在 成 功 的 直道 上 了 。” 


望 可 以 与 读者 共勉 。 
结伴 冒险 即将 开始 ， 


阅读 指导 


鉴于 本 书 采用 迭代 方式 循序 渐进 地 


实现 


通过 程序 从 处 理 需 


! 取 得 ) 


的话， 读者 还 可 以 准备 一 台电 脑 作为 
编译 环境 ,否则 反复 重启 同一 台电 脑 会 严重 影响 开发 效率 。 除 此 之 外 ,还 必须 准备 一 个 U 盘 , 要 在 物理 


希望 读者 能 和 作者 痛快 走 一 回 。 


和 运行 效果 图 并 行 研习 。 


限于 篇 幅 , 本 书 只 对 研发 期 间 所 涉及 的 知识 进行 训 
本 书 会 略 过 ， 还 请 读者 查阅 相关 官方 文档 。 


! U 盘 的 容量 无 需 太 大 ，16 MB 或 8MB 足 侨 。 


， 以 及 经 历 过 的 一 次 


EE 已 经 成 为 历史 。“ 失 败 不 可 怕 ， 害 怕 


用 这 句 话 ， 和 希 


个 操作 系统 ， 而 并 非 一 次 性 构建 起 来 ,所 以 在 开发 的 
每 个 环节 都 会 对 之 前 的 代码 进行 修改 、 调 整 和 升级 。 为 了 节省 篇 幅 ， 本 书 会 附 赠 源码 和 运行 效果 图 ， 
而 书 中 内 容 将 主要 针对 有 变动 的 重要 信息 进行 讲解 ， 请 读者 借助 代码 比较 工 


具 (如 Beyond Compare ) 


[ 解 。 对 于 读者 在 实践 过 程 中 提出 的 疑问 或 困惑 ， 


对 于 没有 操作 系统 开发 经 验 和 缺乏 设计 思路 的 读者 ,强烈 建议 你 们 在 阅读 完 本 书后 , 再 按照 书 中 


的 描述 去 实践 自己 的 操作 系统 ， 以 免 初 次 阅读 本 书 时 编写 出 运行 效果 不 但 


本 系统 使 用 的 编 


译 器 要 求 汇编 代码 使 | 
描述 均 采 用 大 写字 母 书写 。 此 种 现象 源 于 各 个 纺 


译 带 对 汇编 


E 的 程序 。 
] 小 写字 母 书写 ,而 Intel 官方 白皮书 对 汇编 指令 和 寄存 器 的 


首 令 的 书写 格式 要 求 略 有 不 同 ， 有 的 编译 


器 甚至 会 通过 前 /后 缀 符号 对 汇编 指令 做 进一步 修饰 。 为 了 区 分 正文 中 的 汇编 代码 和 汇编 指令 , 本 书 统 


使 用 小 写字 母 表示 汇编 代码 ， 而 汇编 指令 和 寄存 器 则 统一 使 


保留 英文 缩写 
为 了 做 到 原 汁 原味 ， 对 于 页 管 到 


有 本 


日 大 写字 母 表示 。 


所 ( 32/64 位 处 型 


困惑 的 前 提 下 ， 本 书 尽量 使 用 英文 缩写 ( 更 多 英文 缩写 请 见 “ 术 语 表 ”)。 


口 PML4 (Page Map Level 4 ): 4 级 页 表 。 
口 PML4E (PML4-Entry ): PML4 页 表 项 。 
口 PDPT (Page Directory Pointer Table ): 页 目录 指针 表 。 


器 体系 结构 ) 中 常用 的 专 有 名 词 ， 在 不 引起 


i 
(We 


口 PDPTE (PDPT-Entry ): PDPT 页 表 项 。 
口 PDT ( Page Directory Table ): 页 目录 表 。 
口 PDE (PDT-Entry ): PDT 页 表 项 。 

口 PT (Page Table ): 页 表 。 

口 PTE (PTEntry ): PT 页 表 项 。 
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第 一 部 分 


探 作 系统 相 关 知 识 介 绍 


环境 抬 建 


这 一 部 分 将 介绍 操作 系统 相关 知识 及 环境 搭建 方法 ,包含 两 章 内 容 : 


口 第 1 章 操作 系统 概述 ; 
口 第 2 章 环境 搭建 及 基础 知识 。 


本 部 分 主要 针对 业余 爱好 者 以 及 一 些 基础 知识 薄弱 的 朋友 们 。 如 果 你 是 从 事 


底层 开发 工作 的 软件 工程 师 ， 
则 可 以 快速 阅读 这 部 分 内 容 ， 


或 是 具有 扎实 的 知识 基础 和 编程 功底 的 业余 爱好 者 ， 
或 者 选择 跳 过 。 


操作 系统 概述 


本 章 首先 从 宏观 上 介绍 操作 系统 由 哪 几 部 分 组 成 ， 然 后 介绍 编写 操作 系统 必须 掌握 的 知识 ， 最 后 


再 简要 介绍 本 书 操作 系统 。 
1.1 什么 是 操作 系统 


操作 系统 这 个 概念 非常 宽泛 ,不 论 是 办 公 、 生 活 使 用 的 设备 与 计算 机 ， 还 是 机 械 工业 生产 制造 使 


用 的 仪 占 仪表 ， 它 们 都 装 有 操作 系统 。 哪 怕 是 只 有 一 条 指令 的 单片机 ， 也 可 以 称 作 岁入 式 操作 系统 。 


从 这 个 宏观 意义 上 出 发 ,操作 系统 和 硬件 设备 就 可 以 区 分 开 ， 它们 要 么 是 只 有 硬件 电路 的 裸 机 ， 要 人 么 


是 含有 操作 系统 的 硬件 


外 路 。( 这 里 的 硬件 电路 指 含 有 处 理 器 的 可 编程 电路 。 ) 


对 于 只 有 一 条 指令 的 单片机 来 说 ， 它 被 称 为 操作 系统 ， 未 免 显 得 太 过 牵强 。 在 大 多 数 人 眼 里 ， 操 
作 系统 应 该 由 功能 强大 高 效 运转 的 核心 、 万 能 的 驱动 程序 、 绚 丽 的 操作 界面 、 舒 适 简洁 的 操作 方式 及 
方便 实用 的 工具 组 成 。 可 在 当年 , 操作 系统 却 是 一 个 连 硬盘 都 没有 而 只 有 一 些 简单 逻辑 门 电路 的 怪物 。 
从 操作 系统 的 发 展 史 来 看 ， 它 经 历 了 单 任务 系统 、 批 处 理 系统 、 分 时 操作 系统 、 实 时 操作 系统 、 筷 人 
式 操作 系统 以 及 时 下 最 流行 的 云 系统 等 阶段 。 随 着 时 代 的 发 展 ， 硬 件 在 不 断 更 新 换代 ， 操 作 系统 也 在 
不 断 演化 ,操作 系统 的 功能 会 因为 应 用 场景 不 同 而 具有 不 同 的 特点 , 但 它 的 根本 目的 依然 是 为 了 方便 


人 们 对 硬件 设备 的 使 用 与 交互 。 
1.2 ”操作 系统 的 组 成 结构 


一 款 功 能 完备 、 方 便 易 用 的 操作 系统 , 是 由 一 套 庞大 的 结构 组 成 的 , 图 1-1 描 述 了 操作 系统 的 整体 


结构 。 
从 图 1-1 可 以 看 出 ,操作 系统 由 内 核 层 与 应 用 层 两 部 分 组 


异常 /中 断 处 理 、 进 程 管理 、 设 备 驱动 、 文 件 系统 等 模块 组 成 


成。 内 核 层 主要 由 引导 启动 、 内 存 管理 、 
， 而 系统 API 库 和 应 用 程序 则 属于 应 用 层 


的 范畴 。 之 所 以 将 内 核 层 和 应 用 层 分 开 ， 是 因为 内 核 层 主要 负责 控制 硬件 设备 、 分 配 系统 资源 、 为 应 


用 层 提供 健全 的 接口 支持 、 保 证 应 用 程序 正常 稳定 运行 等 全 
互 工 作 。 下 面 将 对 各 个 模型 逐一 进行 介绍 。 


局 和 


工作 。 而 应 用 层 主 要 负责 的 是 人 机 交 


口 引导 启动 。 引 导 启 动 是 指 ， 计 算 机 从 BIOS 上 电 自 检 后 到 跳 转 至 内 核 程序 执行 前 这 一 期 间 执行 
的 一 段 或 几 自 程序。 这 些 程序 主要 用 于 检测 计算 机 硬件 , 并 配置 内 核 运 行 时 所 需 的 参数 ,然后 
再 把 检测 信息 和 参数 提交 给 内 核 解析 ， 内 核 会 在 解析 数据 的 同时 对 自身 进行 配置 。 如 图 1-1 所 


1.2 操作 系统 的 组 成 结构 5 


示 , 使 用 横 线 将 引导 启动 模块 与 其 他 内 核 层 模块 分 隔 开 , 是 考虑 到 引导 启动 模块 只 是 为 了 辅助 
内 核 启动 ， 而 并 非 真 正 属于 内 核 。 一 旦 内 核 开 始 执行 后 ,引导 程序 便 再 无 他 用 。 如 果 把 内 核 比 
作 卫 星 的 话 , 那么 引导 程序 就 相当 于 运载 火箭 ,卫星 进入 轨道 后 ,火箭 就 完成 了 它 的 使 命 。 引 
导 启 动 程序 曾经 分 为 两 部 分 一 一 Boot 和 Loader， 现 在 通常 把 两 者 的 功能 合 二 为 一 ， 并 统称 为 


BootLoader。 


应 用 程序 应 用 层 
系统 调用 API 库 


图 1-1 操作 系统 整体 结构 图 


目前 ， 比 较 流行 的 引导 启动 程序 有 Grub 和 Uboot 等 ， 它 们 的 功能 都 比较 强大 ， 用 户 可 以 通过 它 
们 自 带 的 终端 命令 行 与 之 进行 简单 的 交互 ， 此 举 为 控制 内 核 的 加 载 和 使 用 提供 了 诸多 便利 。 
口 内 存 管理 。 内 存 管理 单元 是 内 核 的 基础 功能 , 它 的 主要 作用 是 有 效 管理 物理 内 存 , 这 样 可 以 简 
化 其 他 模块 开辟 内 存 空 间 ( 连续 的 或 非 连 续 的 ) 的 过 程 , 为 页 表 映 射 和 地 址 变换 提供 配套 函数 。 
Linux 内 存 管理 单元 的 伙伴 算法 ， 算 是 一 种 稳定 成 熟 的 内 存 管理 算法 ， 它 可 以 长 时 间 保 持 内 存 
的 稳定 分 配 , 防止 内 存 碎片 过 多 。 还 有 内 存 线性 地 址 空间 的 红 黑 树 管理 算法 , 它 将 原 有 的 线性 
地 址 结构 转换 为 树 状 结构 以 缩短 搜索 时 间 , 同时 又 在 每 次 搬入 新 节点 时 调整 树 的 高 度 (或 者 深 
度 )， 来 维持 树 的 形状 进而 保证 搜索 时 间 的 相对 稳定 ， 该 算法 既 兼 顾 搜 索 时 间 损 耗 又 兼顾 插入 


时 间 损 耗 。 因 此 ，Linux 选 择 红 黑 树 这 种 近似 平衡 树 来 代替 之 前 的 AVL 树 〈 绝 对 平衡 树 ) 也 是 
出 于 这 方面 的 考虑 。 


口 异常 /中 断 处理 。 此 处 的 异常 是 指 处 理 器 在 执行 程序 时 产生 的 错误 或 者 问题 ， 比 如 除 零 、 段 溢 
出 、 页 错误 、 无 效 指令 、 调 试 错误 等 。 有 的 异常 经 过 处 理 后 ， 程 序 仍 可 继续 执行 ， 有 的 则 不 能 
继续 执行 , 必须 根据 错误 类 型 和 程序 逻辑 进行 相应 的 处 理 。 而 中 断 处 理 是 指 处 理 器 接收 到 硬件 
设备 发 来 的 中 断 请 求 信 号 并 作出 相应 处 理 操作 。 这 部 分 内 容 与 外 围 硬件 设备 关系 非常 密切 , 它 
的 处 理 效率 会 影响 操作 系统 整体 的 执行 速度 。 通 常 , 中 断 处 理会 被 分 为 中 断 上 半 部 和 中 断 下 半 
部 。 中 断 上 半 部 要 求 快速 响应 中 断 , 在 取得 必要 的 数据 和 信息 后 尽早 开启 中 断 ， 以 使 处 理 器 能 
够 再 次 接收 中 断 请 求 信号 。 中 断 下 半 部 被 用 来 执行 剩余 中 断 内 容 , 像 数 据 解析 、 驱 动 程序 状态 
调整 等 更 耗 时 的 内 容 均 在 这 里 完成 。 为 了 让 更 紧迫 的 进程 优先 执行 , 中 断 下 半 部 还 可 将 处 理 内 
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容 安放 在 一 个 进程 中 ， 以 让 更 高 优先 级 的 进程 得 到 快速 执行 。 


口 进程 管理 。 说 到 进程 ,想必 会 有 人 疑惑 进程 和 程序 的 区 别 。 程序 是 静 静 地 身 在 文件 系统 里 的 二 


程序 的 运行 状态 ， 所 以 它 会 比 程序 拥有 更 多 管理 层面 的 信息 和 数据 。 


进 制 代码 , 属于 静止 状态 。 一旦 把 这 个 程序 加 载 到 操作 系统 内 运行 , 它 就 变 成 了 进程 。 进 程 


是 


说 到 进程 管理 功能 , 不 得 不 提 进 程 调度 策略 , 一 个 好 的 进程 调度 策略 , 会 提高 程序 的 执行 效率 
和 反应 速度 。 现代 Linux 内 核 的 发 展 从 早期 的 0(1) 调 度 策略 ,到 楼 梯 调 度 策略 , 再 到 现在 的 CFS 
完全 公平 调度 策略 , 随 着 调度 策略 逐步 升级 ,进程 的 执行 效率 也 越 来 越 高。 进程 管理 的 男 一 个 


重要 部 分 是 进程 间 通信 。 进 程 间 通信 有 很 多 种 方法 ， 如 SIGNAL 信 号 、 管 道 、 共 享 内存 、 信 号 


量 等 ， 这 些 通信 机 制 各 有 特点 ， 互 相 弥 补 不 足 。 


口 设备 驱动 。 随 着 硬件 设备 的 不 断 增 多 , 与 之 对 应 的 设备 驱动 程序 也 渐渐 占据 了 操作 系统 的 很 大 
一 部 分 空间 。 为 了 给 开发 和 使 用 设备 驱动 程序 带 来 方便 ， 不 管 是 Linux 操 作 系统 还 是 Windows 


操作 系统 , 它们 都 为 驱动 程序 提供 了 一 套 或 几 套 成 熟 的 驱动 框架 供 程序 员 使 用 。 同 时 , 为 了 便 
于 驱动 程序 的 调试 、 提 高 即 插 即 用 设备 的 灵活 性 及 缩减 内 核 体积 , 操作 系统 逐渐 把 驱动 程序 从 


内 核 中 移出 , 仅 当 使 用 驱动 时 再 将 其 动态 挂 载 到 内 核 空间 ， 从 而 做 到 驱动 程序 即 插 即 用 。 这 样 


一 来 大 大 缩小 内 核 体积 ， 加 快 系统 启动 速度 。 


设备 驱动 程序 会 与 内 存 管理 、 中 断 处 理 、 文 件 系统 及 进程 管理 等 多 个 模块 共同 协作 。 为 了 证 硬 
件 设备 给 应 用 程序 提供 接口 , 设备 驱动 程序 几乎 调用 了 内 核 层 的 所 有 资源 。 这 也 是 开发 操作 系 


统 的 目的 之 一 ， 即 方便 人 们 与 设备 交互 。 


口 文件 系统 。 文件 系统 用 于 把 机 械 硬 盘 的 部 分 或 全 部 扇 区 组 织 成 一 个 便于 管理 的 结构 化 单元 。 此 


处 的 扇 区 也 可 以 是 内 存 块 ， 这 样 便 组 成 了 一 个 RAMDisk ( 内 存 式 硬盘 )。 这 样 一 个 内 存 式 硬盘 


单单 在 文件 读 写 速度 上 就 比 普通 机 械 硬 盘 高 出 一 个 数量 级 ,其 显而易见 的 缺点 是 掉 电 后 数据 全 
部 丢失 。 不 过 与 它 的 优点 相 比 ， 这 个 缺点 是 完全 可 以 忍受 的 ， 比 如 Linux 内 核 的 sys 文 件 系统 便 


是 在 RAMDisk 中 创建 的 。 


文件 系统 的 种 类 也 是 纷繁 复杂 的 , 像 上 面 提 到 的 sys 文 件 系 统 , 还 有 大 家 耳熟能详 的 FAT 类 文件 
系统 ， 以 及 Linux 的 EXT 类 文件 系统 ， 它 们 对 扇 区 的 组 织 形 式 虽 各 具 特 色 ， 却 都 是 为 了 给 原生 


操作 系统 提供 方便 、 快 捷 的 使 用 体验 而 设计 的 。 


口 系统 调用 API 库 。 系 统 调 用 API 库 接口 有 很 多 规范 标准 ， 比 如 Linux 兼 容 的 POSIX 规 范 标准 。 对 
于 不 同 的 接口 标准 来 说 ， 其 定义 和 封装 的 函数 实现 是 不 一 样 的 。 不 管 怎么 说 ， 系 统 调 用 API 库 


最 终 都 是 为 了 给 应 用 程序 提供 简单 、 快 捷 、 便 于 使 用 的 接口 。 
口 应 用 程序 。 应 用 程序 包括 我 们 自己 安装 的 软件 和 系统 提供 的 工具 、 软 件 与 服务 。 


在 众多 应 用 程序 中 , 比较 特殊 的 一 个 应 用 程序 是 系统 的 窗口 管理 器 , 它 主要 用 于 管理 图 形 界面 


的 窗口 ， 具 体 包括 窗口 的 位 置 布局 、 鼠 标 键盘 的 消息 投递 、 活 动 窗口 仲裁 等 功能 。 


和 窗口 的 位 置 布局 负责 控制 窗口 的 比例 大 小 、 显 示 位 置 、 标 题 栏 及 按钮 等 一 系列 与 窗口 
效果 相关 的 功能 。 


和 键盘 鼠标 的 消息 投递 负责 将 键盘 鼠标 发 送 来 的 消息 发 往 到 活动 窗口 , 这 个 过 程 会 涉及 窗口 


理 器 对 活动 窗口 的 仲裁 。 


的 显 


示 


管 


里 活动 窗口 仲裁 会 依据 鼠标 采用 的 仲裁 模式 ( 包括 鼠标 跟随 式 、 鼠 标 按 下 式 等 ) 来 确定 正在 


操作 的 窗口 。 
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1.3 ”编写 操作 系统 需要 的 知识 | 


鉴于 操作 系统 是 与 硬件 设备 紧密 相连 的 软件 程序 , 所 以 操作 系统 的 编写 自然 会 涉及 软件 和 硬件 两 
个 方面 。 

1. 硬件 方面 

首先 ,我 们 要 根据 硬件 电路 掌握 处 理 器 与 外 围 设 备 的 电路 组 成 ， 通 俗 一 点 说 ， 就 是 处 理 器 和 外 围 
设备 是 怎么 连接 的 。 当 掌握 电路 组 成 后 ， 进 而 可 以 知道 处 理 右 如 何 控制 外 围 设备 ， 以 及 采用 何 种 方式 
与 它们 通信 。 对 于 ARM 这 类 片上 系统 而 言 , 它们 与 外 围 设备 的 连接 方法 非常 灵活 ,所 以 这 部 分 内 容 必 
须要 掌握 ; 而 通用 的 PC 平台 的 连接 方法 相对 固定 得 多 。 因 此 ， 编 写 一 个 PC 平台 的 操作 系统 ， 对 硬件 
电路 的 掌握 要 求 会 比较 宽松 。 

其 次 ， 既 然 清 楚 了 硬件 电路 的 连接 ， 下 一 步 就 是 阅读 这 些 硬 件 设备 的 芯片 手册 。 芯 片 手册 会 详细 
描述 芯片 的 硬件 特性 、 通 信 方 式 、 世 片 内 部 的 寄存 器 功能 ， 以 及 控制 寄存 器 的 方法 。 不 管 何 种 硬件 平 
台 ， 硬 件 设备 的 芯片 手册 都 同等 重要 ， 不 了 解 这 部 分 内 容 也 就 无 法 与 硬件 设备 通信 。 一 般 情 况 下 ,， 操 
作 系统 开发 人 员 会 更 关注 处 理 器 如 何 与 这 些 硬件 设备 通信 、 如 何 控制 它们 的 寄存 器 状态 ， 而 硬件 工程 
师 则 会 更 关注 芯片 的 工作 环境 、 温 度 、 工 作 电压 、 额 定 功率 等 硬件 特性 指标 。 

所 以 在 硬件 方面 ， 掌 握 硬件 电路 、 处 理 器 和 外 围 设 备 的 芯片 手册 即 可 。 其 中 ， 处 理 器 芯片 手册 会 
介绍 如 何 初始 化 处 理 器 、 如 何 切 换 处 理 器 工作 模式 等 一 系列 操作 处 理 器 的 信息 与 方法 ,这些 知识 为 操 
作 系 统 运 行 提 供 技术 指导 。 硬 件 世 片 手册 会 对 设备 上 的 所 有 寄存 器 功能 进行 描述 ,我们 根据 这 些 寄 存 
器 功能 方 可 编写 出 驱动 程序 。 

2. 软件 方面 

至 于 软件 方面 ， 只 要 熟练 运用 汇编 语言 和 C 语 言 就 足够 编写 操作 系统 了 。 

汇编 语言 主要 用 于 控制 和 配置 处 理 器 ， 例 如 引导 启动 处 理 器 、 配 置 处 理 器 运行 状态 、 进 程 切换 、 
中 断 和 蜡 常 处 理 程序 .设备 IO 端口 操作 等 必须 操作 寄存 器 的 工作 ,或 者 是 对 性 能 要 求 极 为 苛刻 的 场景 ， 
这 些 工作 C 语 言 几乎 无 法 实现 。 

C 语 言 是 编写 操作 系统 的 主要 开发 语言 ， 它 以 简单 、 高 效 、 使 用 灵活 等 特性 深 受 底层 开发 人 员 的 
喜爱 。 而 且 ， 它 在 内 嵌 汇 编 语 言 以 及 与 汇编 语言 的 相互 调用 方面 都 表现 得 非常 自然 ， 只 要 遵循 C 语 言 
的 标准 方法 就 能 实现 这 些 功 能 。 

除了 熟练 使 用 开发 语言 之 外 ， 操 作 系统 作为 所 有 资源 的 管理 者 ,一些 灵活 高 效 的 算法 也 是 必 不 可 
少 的 。 从 基础 的 链表 结构 ， 到 树 状 结构 ， 再 到 图 状 结构 ， 操 作 系 统 会 根据 不 同 的 应 用 场景 有 选择 地 使 
用 它们 。 此 外 ， 一些 灵活 的 编程 技巧 也 必 不 可 少 。 像 内 核 异 常 处 理 程序 的 错误 对 照 表 ， 其 原理 是 在 程 
序 容易 出 错 的 地 方 提 前 写 出 错误 处 理 函 数 ， 并 将 出 错 地 址 和 处 理 地 址 记录 在 错误 对 照 表 内 。 当 错误 发 
生 时 处 理 器 会 自动 捕获 错误 地 址 ， 操 作 系统 会 从 错误 对 照 表 里 检索 出 对 应 的 处 理 地 址 ， 并 加 以 执行 。 
这 个 过 程 必须 借助 链接 脚本 巧妙 设计 地 址 空间 ， 才 能 组 建 错 误 处 理 对 照 表 。 

综 上 所 述 ， 编 写 一 个 操作 系统 必 备 的 知识 并 不 多 ， 只 需 掌握 汇编 语言 和 C 语 言 ， 能 够 看 懂 硬 件 电 
路 图 和 硬件 芯片 手册 即 可 。 如 果 期 望 操 作 系统 运行 得 又 快 又 稳 ， 那 么 还 需要 在 兼顾 空间 开销 和 性 能 损 
耗 的 同时 适当 使 用 高 效 算法 。 所 以 ， 编 写 一 个 操作 系统 不 难 ， 难 的 是 通过 巧妙 的 方法 让 它 运 行 得 更 高 
效 、 更 人 性 化 。 
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1.4 本 书 操作 系统 简介 


在 了 解 操作 系统 的 结构 组 成 和 编写 操作 系统 需要 的 知识 后 , 接 下 来 将 对 本 书 即将 实现 的 操作 系统 
加 以 介绍 。 本 书 以 Linux 操 作 系统 作为 主要 参考 对 象 ， 来 编写 一 个 操作 系统 雏形 ， 并 将 其 运行 在 物理 
平台 上 。 此 举 既 可 以 对 学 习 代 码 量 巨大 的 Linux 内 核 有 所 帮助 ， 又 可 以 在 本 系统 基础 上 通过 动手 实践 
对 理论 加 以 验证 ， 进 而 做 到 举一反三 。 而 且 ， 使 用 物理 平台 运行 操作 系统 ， 会 大 大 增加 读者 的 成 就 感 
和 对 操作 系统 的 理解 能 力 ， 同 时 还 能 排除 虚拟 平台 带 来 的 差异 和 问题 。 下 面 将 本 操作 系统 分 为 引导 启 
动 、 内 核 层 与 应 用 层 三 部 分 ， 并 逐一 对 它们 进行 介绍 。 
口 引导 启动 。 引 导 启 动 程序 将 使 用 NASM 汇 编 语言 编写 ， 实 现 U 盘 引导 启动 、 文 件 系统 识别 、 系 
统 内 核 加 载 、 内 存 容 量 检测 、 显 示 模 式 的 检测 与 设置 、 处 理 需 运行 模式 切换 、 页 表 配 置 等 功能 ， 
进而 完成 系统 内 核 运 行 前 的 准备 工作 。 此 环节 涉及 的 关键 技术 点 有 BIOS 中 断 调用 、VBE 功 能 
获得 和 设置 、FAT12/32 文 件 系 统 结构 解析 、E820 内 存 地 址 分 布 、U 盘 与 磁盘 的 区 别 、 处 理 器 体 
系 结构 探索 等 。 
口 内 核 层 。 内 核 层 部 分 是 操作 系统 的 重头 戏 。 正 如 前 文 所 述 ， 本 系统 将 参考 Linux 内 核 来 编写 一 
个 功能 相对 健全 的 内 核 锥 形 ， 其 中 会 涉及 编译 技术 和 链接 技术 来 将 程序 划分 出 不 同 的 代码 空 
间 。 而 且 ， 系 统 内 核 还 将 配 有 内 存 管 理 模块 、 中 断 /异常 处 理 模 块 、 进 程 管理 模块 、 多 核 通信 
模块 、 文 件 系统 模块 、 外 部 设备 驱动 等 一 系列 功能 模块 ,成 为 一 个 可 以 正常 工作 且 功 能 相对 完 
整 的 系统 内 核 。 同 时 ， 本 系统 还 将 遵循 POSIX 规 范 标 准 ， 为 应 用 层 提供 通用 的 编程 接口 ( 系统 
调用 API )。 
口 应 用 层 。 应 用 层 部 分 将 实现 Shell 命 令 解析 器 和 一 些 基础 命令 。 既然 内 核 层 已 经 实现 了 系统 调用 
API， 那 么 这 些 应 用 程序 便 可 在 此 基础 上 了 予以 实现 。 
综 上 所 述 , 虽然 本 书 操作 系统 参考 了 Linux 内 核 源码 , 但 并 非 直接 裁剪 Linux 内 核 源 码 而 成 ! 因为 ， 
这 样 会 帮助 读者 在 学 习 本 书 的 同时 ,便于 向 Linux 内 核 过 渡 。 就 像 当年 Linux 参 考 Unix 一 样 ， 我 们 的 操 
作 系 统 必 须 先 有 个 健全 的 系统 雏形 ， 才 能 承载 我 们 远大 的 梦想 。 
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本 章 介绍 编写 本 书 操作 系统 所 需 的 基础 知识 、 系 统 环境 及 环境 搭建 方法 ， 大 家 不 必 在 这 方面 耗费 
太 多 精力 ， 本 着 够 用 就 好 的 原则 即 可 。 

本 书 操作 系统 开发 使 用 的 系统 环境 是 Windows 7 系统 ， 编 译 环境 是 Linux 的 开源 发 行 版 CentOS 6。 
因此 ， 作 者 将 借助 VMware 虚拟 机 软件 在 Windows 7 系统 下 创建 了 一 个 虚拟 平台 ， 再 由 此 平台 搭载 
CentOS 6 操作 系统 。 虽 然 我 们 的 意图 是 在 物理 平台 上 运行 操作 系统 ， 但 如 果 在 操作 系统 开发 初期 就 使 
用 物理 平台 的 话 ， 代 码 调试 工作 将 变 得 十 分 艰难 。 故 此 ， 在 开发 初期 使 用 Bochs 虚 拟 机 来 调试 我 们 的 
操作 系统 是 个 不 错 的 选择 。 

在 基础 知识 方面 ， 不 管 你 是 精通 C 语 言 和 汇编 语言 、 能 够 写 出 高 效 且 星 涩 的 代码 的 大 神 ， 还 是 初 
学 编程 语言 抱 着 谭 浩 强 的 《C 语 言 程 序 设 计 》 乱 噶 的 菜鸟 ， 都 请 你 们 静 下 心 来 读 完 这 一 章 再 上 路 。 本 
章 可 以 作为 复习 章 ， 亦 可 作为 提高 自己 知识 技能 的 学 习 章 ， 其 中 涉及 的 知识 点 都 很 重要 ， 如 果 不 了 解 
这 些 知 识 ， 往 后 的 内 容 你 会 学 得 很 吃力 。 不 经 一 番 寒 彻 骨 ， 怎 得 梅花 扑鼻 香 。 我 们 今天 的 止步 不 前 ， 
是 为 了 明天 大 踏步 的 前 进 。 


2.1 虚拟 机 及 开发 系统 平台 介绍 


研发 任何 一 款 软件 都 需要 有 完整 的 开发 环境 ， 研 发 操作 系统 也 不 例外 。 

开发 操作 系统 主要 使 用 汇编 语言 和 C 语 言 ， 再 加 上 些许 灵活 多 变 的 设计 思想 即 可 。 开 发 应 用 程序 
可 以 借助 丰富 的 调试 工具 和 系统 开发 库 的 支持 ， 而 开发 操作 系统 一 切 皆 需要 从 零 做 起 。 

随 着 开源 免费 软件 大 军 逐 渐 壮 大 ， 为 了 避免 版 权 问题 和 收费 软件 的 麻烦 ，Linux 家 族 的 操作 系统 
已 成 为 开发 环境 的 首选 。VMware 虚 拟 机 软件 以 稳定 、 方 便 、 灵 活 、 功 能 强大 等 特点 深 受 开发 者 们 的 
喜爱 。Windows、Linux 或 Mac OS 系统 平台 都 能 创建 出 一 个 表现 出 众 的 虚拟 平台 。Linux 开 源 操作 系统 
与 YMware 虚 拟 机 软件 经 常会 组 合 在 一 起 使 用 。 

开源 的 轻 量 级 虚拟 机 Bochs ， 不 仅 可 以 运行 虚拟 平台 ， 还 能 够 在 平台 运行 期 间 对 平台 进行 调试 ， 
从 而 帮助 我 们 度 过 一 个 个 难关 。 当 然 ， 如 果 你 手头 有 其 他 的 可 调试 虚拟 机 ， 只 要 它 具 有 设置 断 点 、 查 
看 内 存 、 查 看 寄存 器 状态 、 反 汇编 内 存 代 码 等 基本 功能 , 也 可 以 使 用 。 和 希望 读者 能 够 根据 自己 的 喜好 ， 
搭建 出 一 个 顺手 的 开发 环境 。 


2.1.1 VMware 的 安装 
VMware 这 款 虚 拟 机 软件 想必 大 家 并 不 陌生 ， 它 基本 上 属于 开发 必 备 软件 之 一 。 如 果 你 正在 使 用 


上 
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Linux 的 某 个 发 行 版 ， 可 以 选择 跳 过 这 部 分 内 容 ， 直 接 从 2.1.3 节 看 起 。 这 部 分 内 容 主 要 针对 Windows 
用 户 介绍 虚拟 机 软件 和 编译 环境 。 

作者 使 用 的 操作 系统 是 Windows 7 SP1， 编 译 环境 选 定 为 Linux 的 某 个 发 行 版 。 因 此 , 使 用 VMware 
软件 来 为 编译 环境 虚拟 硬件 平台 是 个 理想 的 选择 。VMware 旗 下 的 VMwareWorkstation 和 VMwarePlayer 
均 可 满足 本 书 开发 需求 。 对 于 软件 版 本 也 无 过 多 要 求 ， 只 要 能 顺利 安装 一 款 Linux 发 行 版 操作 系统 ， 
并 支持 动态 挂 载 USB 设 备 就 可 以 了 。 


注意 事项 

> VMware 安装 完毕 后 ， 读 者 很 可 能 会 使 用 优化 软件 对 电脑 进行 清理 和 优化 ， 此 时 要 特别 注意 ， 在 
优化 过 程 中 ， 优 化 软件 可 能 会 关闭 VMware 的 某 些 自动 开启 的 系统 服务 ， 以 至 于 虚拟 机 软件 有 时 
无 法 连接 网 络 和 挂 载 USB 设 备 。 解决 办 法 是 , 在 运行 栏 内 输入 services .msc 开 启 服务 管理 窗口 ， 
开启 相关 服务 。 如 果 不 知 道 该 开启 哪个 服务 的 话 ， 就 索性 开启 VMware 软 件 的 全 部 服务 。 

> 在 Windows 7 操作 系统 下 运行 YMware 软 件 时 ， 尽 量 以 管理 员 权 限 运 行 ， 否 则 容易 报错 。 


2.1.2 ”编译 环境 CentOS 6 


VMware 软件 安装 后 ， 我 们 将 使 用 该 软件 建立 虚拟 硬件 平台 ， 并 在 虚拟 平台 上 安装 操作 系统 。 
CentOS 6 是 本 书 编译 环境 选用 的 操作 系统 。 
1. 系统 安装 
对 于 操作 系统 ， 可 根据 个 人 习惯 自由 选 定 ， 只 要 是 Linux 的 发 行 版 缘 可 。 作 者 选择 CentOS 操 作 系 
统 , 主要 是 由 于 长 期 的 使 用 习惯 所 使 虽然 CentOS 系 统 的 大 部 分 软件 不 是 最 新 的 , 但 是 对 于 企业 来 说 ， 
系统 稳定 更 重要 。 而 且 CentOS 是 Red Hat 的 免费 版 ， 提 供 的 维护 和 更 新 时 间 更 长 ， 操 作 界 面相 对 简单 、 
易 使 用 。 
2. 开发 过 程 中 涉及 的 一 些 命令 
操作 Linux 类 系统 主要 依靠 终端 命令 实现 ， 这 点 与 Windows 操 作 系 统 有 所 不 同 。 这 也 是 Linux 类 操 
作 系 统 的 精髓 所 在 ， 不 同 功 能 的 命令 可 以 组 合 使 用 ， 进 而 实现 更 强大 的 功能 。 以 下 命令 及 工具 大 致 涵 
盖 了 开发 本 操作 系统 所 需 。 
口 编译 器 和 编译 工具 
gcc: GUN C 语 言 编译 器 ， 文 持 C99 标 准 并 拥有 独特 的 扩展 。 
四 as: GAS 汇编 语言 编译 器 ， 用 于 编译 AT&T 格 式 的 汇编 语言 。 
上 1d: 链接 器 ， 用 于 将 编译 文件 链接 成 可 执行 文件 。 
@ nasm: NASM 汇 编 语言 编译 器 ， 用 于 编译 Intel 格 式 的 汇编 语言 。 
make: 编译 工具 ， 根 据 编 译 脚 本 文件 记录 的 内 容 编译 程序 。 
口 系统 工具 与 命令 
和 dd: 复制 指定 大 小 的 数据 块 ， 并 在 复制 过 程 中 转换 数据 格式 。 
和 mount : 挂 载 命 令 ， 用 于 将 U 盘 、 光 驱 、 软 盘 等 存储 设备 挂 载 到 指定 路 径 上 。 


和 umount : 仓 载 命令 ， 与 mount 命 令 功能 相反 。 
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: 复制 命令 ， 复 制 指定 文件 或 目录 。 
sync: 数据 同步 命令 ， 将 已 缓存 的 数据 回 写 到 存储 设备 上 。 
rm: 删除 命令 ， 删 除 指定 文件 或 目录 。 
objdump: 反 汇 编 命 令 ， 人 负责 将 可 执行 文件 反 编译 成 汇编 语言 。 
objcopy: 文件 提取 命令 ,将 源 文件 中 的 内 容 提取 出 来 ,再 转 存 到 目标 文件 中 。 

以 上 命令 和 工具 通常 会 默认 安装 到 Linux 发 行 版 系统 中 。 如 果 操作 系统 里 没有 相关 命令 ， 也 无 需 
担心， 使 用 操作 系统 自 带 的 软件 更 新 工具 (yum、apt_oet 等 ) 就 能 安装 (或 更 新 ) 最 新 版 本 的 命令 
到 系统 中 。 


注意 事项 

> 在 使 用 VMware 软件 创建 虚拟 平台 时 ， 不必 为 内 存 和 硬盘 分 配 过 大 的 存储 空间 ， 而 且 硬 盘 可 以 配置 
成 动态 增长 型 ， 这样 可 以 节省 虚拟 机 的 磁盘 存储 空间 。 

> 由 于 本 次 开发 不 会 使 用 到 swap 分 区 ， 那 么 系统 就 没有 必要 创建 该 分 区 。 如 果 读 者 还 打算 在 本 系统 
中 进行 其 他 开发 ， 还 是 创建 swap 分 区 为 妙 。 


2.1.3 ”Bochs 虚拟 机 


Bochs 是 一 款 开源 的 可 调试 虚拟 机 软件 ， 在 开发 操作 系统 的 初期 阶段 ,通过 它 的 调试 功能 可 以 为 
系统 内 核 的 正常 运行 保驾 护航 。 

1. Bochs 环 境 安装 

由 于 这 款 软件 仍 处 于 完善 中 ， 新 版 本 将 会 解决 不 少 pug， 对 于 开发 操作 系统 的 内 核 级 软件 来 说 ， 
这 点 会 比较 重要 。 因此 ， 在 洁 反 Boahs 的 多 人 了 本 时 ， 还 是 相对 新 一 些 比较 好 ， 作 者 选择 的 是 最 新 的 
bochs-2.6.8。 请 读者 自行 下 载 和 安装 Bochs 虚 拟 机 ， 这 里 分 享 一 下 configure 工 具 的 配置 信息 ， 仅 供 
参考 : 


./configure --with-xl1l --with-wx --enable-debugger --enable-disasm 
--enable-all-optimizations --enable-readline --enable-long-phy-address 
--enable-ltdl-install --enable-idle-hack --enable-plugins --enable-a20-pin 
--enable-x86-64 --enable-smp --enable-cpu-level=6 --enable-large-ramfile 
--enable-repeat-speedups --enable-fast-function-calls --enable-handlers-chaining 
--enable-trace-linking --enable-configurable-msrs --enable-show-ips --enable-cpp 
--enable-debugger-gui --enable-iodebug --enable-logging --enable-assert-checks 
--enable-fpu --enable-vmx=2 --enable-svm --enable-3dnow --enable-alignment-check 
--enable-monitor-mwait --enable-avx --enable-evex --enable-x86-debugger 
--enable-pci --enable-usb --enable-voodoo 


因为 不 ; 清楚 调试 内 核 到 底 会 Rd 生 就 将 它们 全 部 添加 上 去 , 在 编译 时 可 能 会 出 现 “ 文 
件 不 存在 ”错误 ， 这 时 只 需 将 后 级 名 为 .cpp 的 文件 克隆 出 一 个 后 缀 名 为 .cc 的 副本 即 可 通过 编译 ,请 
参考 以 下 几 行 复制 命令 : 


cp misc/bximage.cpp misc/pbximage .cc 
cp iodev/hdimage/hdimage.cpp iodev/hdimage/hdimage.cc 
cp iodev/hdimage/vmware3.cpp iodev/hdimage/vmware3.cc 


cp iodev/hdimage/vmware4.cpp iodev/hdimage/vmware4.cc 
cp iodev/hdimage/vpc-img.cpp iodev/hdimage/vpc-img.cc 
cp iodev/hdimage/vbox.cpp iodev/hdimage/vbox.cc 


2. Bochs 运 行 环境 配置 
编译 安装 Bochs 虚 拟 机 软件 后 ， 还 需要 为 即将 实现 的 操作 系统 创建 虚拟 硬件 环境 。 这 个 环境 是 通 
过 配置 文件 描述 的 ， 在 Bochs 文 件 夹 内 已 为 用 户 准备 了 一 个 默认 的 系统 环境 配置 文件 .bochsrc， 里 面 有 
配置 选项 的 说 明和 实例 可 供用 户 参 考 使 用 。 读 者 可 以 在 .bochsrc 文 件 的 基础 上 稍 作 修改 , 配置 出 一 个 自 
己 的 虚拟 平台 环境 。 以 下 内 容 是 本 系统 虚拟 平台 环境 的 配置 信息 : 


# configuration file generated by Bochs 

plugin ctrl: unmapped=1, biosdev=1, speaker=1, extfpuirq=1, parallel=1, serial=1, 
iodebug=1 

config_ interface: textconfig 

display_library: x 

#memory: host=2048, guest=2048 

romimage: file="/usr/local/share/bochs/BIOS-bochs-latest" 
vgaromimage: file="/usr/local/share/bochs/VGABIOS-lgpl-latest" 
boot: floppy 

floppy_bootsig_ check: disabled=0 

floppya: type=1_44, 1 44="boot.img", status=inserted, write_ protected=0 
# no floppyb 

ata0: enabled=1, ioaddr1l=0x1lf0, ioaddr2=0x3f0, irq=14 
ata0-master: type=none 

ata0-slave: type=none 

atal: enabled=1, ioaddr1l=0x170, ioaddr2=0x370, irqgq=15 
atal-master: type=none 

atal-slave: type=none 

ata2: enabled=0 

ata3: enabled=0 

pci: enabled=1, chipset=i440fx 

vga: extension=vbe, update_ freq=5 


cpu: count=1:1:1, ips=4000000, quantum=16, 
model=corei7_haswell_4770,reset_on triple fault=1, cpuidqd limit winnt=0, 
ignore_ bad msrs=1, mwait_is nop=0, msrs="msrs.def" 


cpuid: x86_64=1,1level=6, mmx=1, sep=1, simd=avx512, aes=1, movbe=1, 
xsave=1,apic=x2apic,sha=1,movbe=1,adx=1,xsaveopt=1,avx_f16c=1,avx_fma=1,bmi=bmi2,1 
g_pages=1,pcid=1,fsgsbase=1, smep=1, smap=1,mwait=1,vmx=1 

cpuid: family=6, model=0xla, stepping=5, vendor_ string="GenuineIntel", 
brangd_string="Intel (R) Core(TM) i7-4770 CPU (Haswell)" 


print_ timestamps: enabled=0 
debugger_log: - 
magic_break: enabled=0 
port_e9_hack: enabled=0 

private_colormap: enabled=0 

clock: sync=none, time0=local, rtc_sync=0 
# no cmosimage 

# no loader 

log: = 

logprefix: ggegd 

debug: action=ignore 

info: action=report 

error: action=report 
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panic: action=ask 

keyboard: type=mf, serial_ delay=250, paste_delay=100000, user_shortcut=none 
mouse: type=ps2, enabled=0, toggle=ctrl+mbutton 

speaker: enabled=1, mode=system 

Parport1: enabled=1, file=none 

parport2: enabled=0 

com1 : enabled=1, mode=null 

com2: enabled=0 

com3: enabled=0 

com4: enabled=0 


megs: 2048 

在 这 段 虚 拟 平台 配置 信息 中 ， 大 部 分 内 容 依 然 使 用 默认 设置 信息 。 需 要 特殊 说 明 的 有 以 下 几 项 。 

口 boot :floppy: 相当 于 设置 BIOS 的 启动 项 ， 此 处 为 软盘 启动 。 

DQ floppya:type=1 44,1 44="boot.img",status=inserted,write protected=0: 设置 
插入 软盘 的 类 型 为 容量 1.44 MB 的 软盘 ， 软 盘 镜 像 文件 的 文件 名 为 bootimg， 状 态 是 已 经 搬入， 
写 保 护 开关 置 于 关闭 状态 。 

口 cpu 与 cpuid: 这 两 个 选项 描述 了 处 理 需 的 相关 信息 ， 可 以 根据 个 人 需求 自行 设 定 ， 在 .bochsrc 

文件 中 也 有 详细 说 明 可 供 参 考 。 

口 megs:2048: 设置 虚拟 平台 的 可 用 物理 内 存 容量 ， 以 MB 为 单位 。 目 前 ，Bochs 虚 拟 软件 可 用 
的 内 存 上 限 是 2048 MB (2 GB )， 如 果 操 作 系 统 没有 足够 内 存 ，Bochs 会 运行 失败 ， 失 败 时 的 提 
示 信 息 大 致 如 下 所 示 : 
terminate called after throwing an instance of 'std::bad alloc'! 


what(): std::bad_alloc 
Aborted (core dumped) 


一 、 


补充 说 明 如 果 把 配置 项 display_library: x 修改 为 display_library: x,options="gui_ 
debug"， 将 开启 图 形 界 面 的 调试 窗口 。 


3. Bochs 相 关 的 调试 命令 
Bochs 虚 拟 机 软件 最 大 的 优点 是 ， 在 虚拟 平台 运行 时 可 以 通过 命令 对 其 进行 调试 ， 表 2-1 罗 列 出 了 
经 常 使 用 的 调试 命令 。 


表 2-1 Bochs 调 试 命令 


指 令 说 明 举 例 

b address 在 某 物理 地 址 上 设置 断 点 Deonend 

CS 继续 执行 ， 直 到 遇 到 上 断 点 

s 单 步 执行 s 

info cpu 查看 寄存 器 信息 info cpu 

r 查看 寄存 器 信息 = 

sreg 查看 寄存 器 信息 sreg 

creg 查看 寄存 器 信息 creg 
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( 续 ) 
指 令 说 明 举 例 
xp /nuf adar 查看 内 存 物 理 地 址 内 容 xp /10bx 0x100000 
x /nuf adgdr 查看 线性 地 址 内 容 X /40wd 0x90000 
u start end 反 汇编 一 段 内 存 u 0x100000 0x100010 
注 : n 代 表 显 示 单 元 个 数 ; u 代 表 显 示 单 元 大 小 [b: Byte、h: Word、w: DWord、g: QWrod (四 字 节 ) ]; f 代 表 显 示 格 
式 (x: 十 六 进 制 、a: 十 进 制 、t: 二 进 制 、c: 字符 ) 。 
以 上 这 些 命令 都 会 在 今后 的 系统 开发 中 使 用 到 。 如 果 一 开始 就 让 代码 运行 在 物理 平台 上 , 一 旦 出 


现 问 题 ， 
然 失措 、 无 从 下 手 ， 
待 到 时 机 成 熟 后 再 
汇编 语 


刘 吾 


ho 


2.2 


错误 分 析 工作 会 变 得 举步维艰 ， 甚 至 连 查看 寄存 器 状态 和 内 存 
濒临 绝望 。 考 虑 到 这 些 原 因 ， 就 先 让 我 们 的 程序 在 Bochs 虚 拟 机 里 运行 一 段 时 间 ， 
巴 它 移 植 到 物理 平台 上 运行 。 


区 数据 这 类 小 事 ， 都 会 变 得 荡 


汇编 语言 的 书写 格式 大 体 分 为 两 种 ， 一 种 是 AT&T 汇 编 语言 格式 ， 另 一 种 是 Intel 汇 编 语 言 格式 。 


八 时 乡 
会 影 


这 两 种 书写 格式 并 不 


SS 


Intel 汇 编 语言 


已 


响 汇编 指令 


译 器 和 YASM 编 译 器 。 而 AT&T 汇 编 语言 格式 相对 来 说 会 复 


译 需 。 


对 本 书 操作 系统 而 言 ，BootLoader 部 分 将 采用 Intel 格 式 的 汇编 


的 功能 ， 而 且 它 们 都 有 相应 的 纺 
格式 书写 简洁 ， 使 用 起 来 会 比较 舒服 ， 支 持 它 的 编 


译 器 支持 。 
译 器 有 MASM 编 译 器 、NASM 编 


狼 一 些 


编译 ， 操 作 系统 的 内 核 与 应 用 程序 将 采 


译 。 同 时 使 用 这 两 种 汇编 语言 书写 格式 是 有 原因 的 ， 可 以 概括 为 
口 由 于 BootLoader 全 部 使 用 汇编 语言 编 


既 书 写 简单 又 便于 阅读 。 


语言 编写 ， 那么 为 GNU C 语 
互 调 


C 语 言 和 汇编 语言 经 常会 出 现 互 相 调 


通过 一 节 篇 幅 专 门 对 其 进行 讲解 。 


2.2.1 


口 内 核 和 应 用 程序 只 有 一 小 部 分 关键 代码 必须 使 


Ci 


用 ， 进 而 提高 两 者 的 互相 兼容 性 。 
用 的 情况 , 其 中 汇编 语 


jAT&T 格 式 的 汇编 语 


支持 它 的 编译 咒 是 GNU 的 GAS 纺 


2 


i 


语言 编写 ,使 用 NASM 编 译 带 进行 
编写 ， 使 用 GNU 的 GAS 编译 需 进行 编 
以 下 两 点 。 


二 


已 


写 ， 代码 量 大 ， 如 果 采 


jIntel 格 式 的 汇编 


语言 ， 可 以 保证 


搭配 上 AT&T 格 式 


AT&T 汇 编 语 言 格 式 与 Intel 汇 编 


用 汇编 语言 纪 
的 GNU 汇 纺 


写 ， 绝 大 部 分 代码 会 使 用 GNU C 
语言 ， 可 使 两 者 更 加 自然 流畅 地 相 


已 


调用 C 语 言 的 过 程 最 为 复杂 。 稍 后 将 


AT&T 汇编 语言 格式 与 Intel 汇编 语言 格式 


语言 格式 在 指令 的 功能 上 并 无 太 大 区 别 ， 但 在 书写 格式 、 赋 值 方 


向 、 前 绥 等 方面 却 各 有 各 的 特点 。 于 


C2-2 对 这 两 种 汇编 语 


百 


格式 进行 了 对 比 。 
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表 2-2 AT&T 汇 编 语言 格式 与 Intel 汇 编 语言 格式 对 比 表 


Intel 汇 编 语 言 格式 


AT&T 汇 编 语言 格式 


书写 格式 


赋值 方向 


操作 数 前 组 


跳 转 和 调用 
指令 


内 存 间 接 寻 
址 格式 


指令 的 后 绥 


大 多 数 编译 器 要 求 关键 字 必 须 使 用 大 写字 母 书 


写 ， 如 : MOV AX, 0x10 
个 且 .所 


指令 通常 带 有 两 个 操作 数 ， 一 个 是 目的 操作 数 ， 另 
一 个 是 源 操 作 数 ， 赋 值 方向 从 右 向 左 。 

以 App 汇编 指令 为 例 ， 它 的 格式 为 : 

ADD 目的 操作 数 , 源 操作 数 


使 用 寄存 器 和 立即 数 无 需 额外 添加 前 绥 。 


MOV CX,12 


be 


例如 : 


远 跳 转 指令 JMP 的 目标 地 址 由 段 地 址 和 有 段 内 偏 移 组 
成 , 远 调用 指令 caLL 的 目标 地 址 同样 由 段 地址 和 上段 
内 偏 移 组 成 ， 远 返回 指令 RET 无 操作 数 : 

CALL FAR SECTION:OFFSET 

JMP FAR SECTION:OFFSET 
RET 


Intel 使 用 [ ] 来 表示 间接 寻 址 ， 完 成 格式 为 
section: [baset+tindex*scale+displacement] 
其 中 scale 的 默认 值 为 1!， 可 取 值 是 !、2、4、8; 
section 用 于 指定 段 寄存 器 ， 不 同情 况 的 默认 段 寄 
存 器 是 不 同 的 


使 用 内 存 操作 数 时 
定 , 借助 修饰 符 PTR 可 以 限定 操作 数 的 位 宽 ， 


应 该 对 操作 数 的 位 宽 加 以 限 


编译 器 要 求 关 键 5 必须 使 


mov SOX10 ,和 当 aX 


与 Intel 汇编 语言 格式 恰恰 相反 ， 第 一 个 是 源 操作 
数 ， 第 二 个 是 目的 操作 数 ， 赋 值 方向 从 左 向 右 


小 写字 母 书写 ， 如 : 


使 用 寄存 器 必须 在 前 面 添加 指令 前 绥 
数 必须 在 前 面 添加 前 级 $， 例 如 : 


mov $12,%cx 


gs， 使 用 立即 


对 于 标识 符 变 量 ,可 以 直接 引用 ,无 需 添加 前 组 
例如 : 
values: .long 0x5a5a5a5a 


Imov] values, Seax 
此 处 的 values 是 一 个 标识 符 变量 ， 这 条 指令 的 意 
变量 记录 的 数值 0x5a5a5a5a 装 人 


思 是 将 values 变 


寄存 器 eax 中 

如 果 添 加 标识 符 前 级 $， 则 说 明正 在 引用 该 变量 的 
地 址 。 例 如 : 

movl $values,%Sebx 

这 条 汇编 指令 的 意思 是 将 values 变 量 的 地 址 装 入 
epx 寄 存 带 


对 于 远 跳 转 指 令 和 和 远 调用 指令 必须 使 用 前 级 1 加 
以 修饰 ,与 1call 指 令 相 对 应 的 是 远 返 回 指令 
lret。 例如: 


lcall $section:S$offset 


ljmp $section:S$offset 
lret 


AT&T 使 用 ( ) 来 表示 间接 寻 址 ， 格 式 为 section: 


displacement (base, index, scale) 


BYTE PTR 代 表 一 个 字 节 、woRD PTR 代 表 一 个 字 、 
DWORD PTR 代 表 一 个 双 字 等 。 例 如 : 
MOV EAX,DWORD PTR [EBX] 


这 里 的 section ，base ，inqex ，scale ， 

displacement 与 Intel 的 使 用 规则 相同 

AT&TIi 看 法 中 大 部 分 指 令 在 访问 数据 时 都 需要 指 
例如 : ” 明 操 作 数 的 位 宽 ， 通 常 一 个 字 节 用 b 表 示 、 一 个 5 

用 w 表 示 、 一 个 双 字 用 1 表示 、 一 个 四 字 用 a 表示 。 

例如 : 

movgd %Srax,$Srbx 

比 外 , 跳 转 指令 的 地 址 标识 符 也 可 添加 后 级 以 表示 


跳 转 方向 ，f 表 示 癌 前 跳 转 ( forward )，b 表 示 问 后 
跳 转 (back )， 如 : 

jmp 1f 

二 
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2.2.2 NASM 编译 器 


想必 ， 许 多 读者 在 学 习 汇编 语 言 时 都 是 从 Intel 处 理 器 的 让 86 汇 编 语 言 开 始 ， 使 用 的 编译 器 很 可 能 
是 MASM (Microsoft Macro Assembler )。 本 节 介 绍 的 NASM 编 译 需 在 语法 和 书写 格式 上 ， 与 MASM 编 
译 器 比较 相似 ,值得 说 明 的 有 以 下 几 点 。 

1. 符号 [] 

在 NASM 编 译 器 中 ， 如 果 直 接 引 用 变量 名 或 者 标识 符 ， 则 被 编译 器 认为 正在 引用 该 变量 的 地 址 。 
如 果 和 希望 访问 变量 里 的 数据 ， 则 必须 使 用 符号 []。 如 果 这 样 不 太 容 易 记忆 ， 那么 可 以 把 它 想象 成 C 语 言 
里 的 数组 ， 数 组 名 代表 数组 的 起 始 地 址 ， 当 为 数组 名 加 上 符号 [ ] 后 ， 就 表示 正在 引用 数组 的 元 素 。 

2. 符号 $ 

符号 s 在 NASM 编 译 器 中 代表 当前 行 被 编译 后 的 地 址 。 这 么 说 好 像 不 太 容易 理解 ， 那 么 请 看 下 函 
这 行 代码 : 

jmp $ 
这 条 汇编 指令 的 功能 是 死 循环 ,将 它 翻 译 成 十 六 进 制 机 器 人 码 是 E9 FD FF。 其 中 ,机 器 码 E9 的 意思 是 跳 
转 ， 而 机 器 码 FD FF 用 于 确定 跳 转 的 目标 地 址 ， 由 于 x86 人 处理 器 是 以 小 端 模 式 保存 数据 的 ， 所 以 机 器 码 
转换 为 地 址 偏 移 值 是 0xfffd， 即 十 进 制 数 -3。 从 机 器 码 E9 可 知 ， 这 个 JMP 指 令 完成 的 动作 是 相对 跳 转 ， 
跳 转 的 目标 地 址 是 在 当前 指令 地 址 减 3 处 ， 这 条 指令 的 长 度 为 3 个 字 节 ， 所 以 处 理 器 又 回 到 这 条 指令 处 
重新 执行 。 符 号 $s 在 上 述 过 程 中 指 的 是 机 器 码 E9 之 前 的 位 置 。 

3. 符号 $$ 

明白 了 符号 s， 那 么 ,符号 s$ 又 是 什么 意思 呢 ?” 其 实 ， 它 代表 一 个 Section ( 节 ) 起 始 处 被 编译 后 
的 地 址 ， 也 就 是 这 个 节 的 起 始 地 址 。 编 写 小 段 的 汇编 程序 时 ， 通 常 使 用 一 个 Section 即 可 ， 只 有 在 编写 
复杂 程序 时 ， 才 会 用 到 多 个 Section。Section 既 可 以 是 数据 段 ， 也 可 以 是 代码 段 。 不 能 把 Section 比 喻 成 
函数 ， 这 是 不 恰当 的 。 


提示 在 编写 代码 的 过 程 中 ， 时 常 使 用 代码 $-$$， 它 表示 本 行程 序 距离 Section 起 始 处 的 偏 移 。 如 果 
只 有 一 个 节 ， 它 便 表 示 本 行程 序 距离 程序 起 始 处 的 距离 。 在 第 3 章 中 ， 我 们 会 把 它 与 关键 字 
times 联 合 使 用 ， 来 计算 将 要 填充 的 数据 长 度 ， 示 例 代码 如 下 : 
times 512 - ($§ - $$) db 0 


2.2.3 ”使 用 汇编 语言 调用 C 语言 的 函数 


在 开发 操作 系统 时 ， 常 常会 从 汇编 程序 跳 转 至 C 语 言 的 函数 中 执行 。 比 如 ， 从 系统 引导 程序 ( 汇 
编程 序 ) 跳 转 到 系统 内 核 主 函 数 中 ,或 者 从 中 断 处 理 入 口 程序 (汇编 程序 ) 跳 转 到 中 断 处 理 函 数 ( 属 
于 中 断 上 半 部 ) 中 等 。 这 些 汇 编 语 言 调 用 C 语 言 的 过 程 都 会 涉及 函数 的 调用 约定 、 参 数 的 传递 方式 、 
函数 的 调用 方式 等 技术 细节 ， 下 面 就 来 逐一 讲解 这 些 知 识 点 。 

1. 函数 的 调用 方式 

汇编 语言 调用 孙 数 的 方式 并 没有 想象 中 的 那么 复杂 ， 通 过 汇编 指令 JMP、cALL、RET 及 其 变种 指 
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令 就 可 实现 。 为 了 更 好 理解 整个 调用 过 程 ， 请 先 看 下 面 这 段 代 码 : 


int test() 


i=1+ 
return i; 
} 
int main() 
{ 
test (); 
return 0; 


} 

这 上段 程序 非常 简单 ， 唯 一 要 注意 的 地 方 是 主 函数 main 的 返回 值 ， 此 处 建议 主 函 数 的 返回 值 使 用 
int 类 型 ， 而 不 要 使 用 void 或 者 其 他 类 型 。 虽 然 主 函数 执行 到 return 0 以 后 就 跟 我 们 没有 关系 了 ， 
但 在 回收 进程 的 过 程 中 可 能 要 求 主 函数 要 有 返回 值 ,或 者 某 些 场合 会 用 到 主 函数 的 返回 值 。 考虑 到 上 
述 原因 ， 请 读者 尽量 使 用 int 类 型 ， 如 果 处 于 某 种 特殊 的 、 可 预测 的 环境 ， 则 无 需 遵照 此 条 建议 。 

接 下 来 , 反 汇编 这 段 代码 编译 出 的 程序 ， 让 我 们 从 汇编 语言 的 角度 去 看 看 函数 test 的 调用 过 程 。 
使 用 objdqump 命 令 可 以 把 目标 程序 反 编 译 成 汇编 语言 ， 该 命令 提供 了 诸多 参数 ， 通 过 这 些 参数 可 以 从 
目标 程序 中 反 编译 出 各 类 想 要 的 数据 信息 。 读 者 可 以 参考 以 下 命令 对 test 程 序 进 行 反 汇编 : 

objdump -qd test 

经 过 objqump 命 令 的 反 编译 工作 后 ， 程 序 代 码 段 内 的 数据 将 会 以 汇编 语言 形式 显示 出 来 。 过 滤 掉 
多 余 的 代码 后 ， 以 下 是 test 函 数 和 main 函 数 的 反 汇编 代 码 片 段 : 


0000000000400474 <test>: 


400474: 55 push Srbp 
400475 : 48 89 e5 mov Srsp, Srbp 
400478: er db. E00 .0.0.0070.0 movil $0x0, -0x4 (Srbp) 
40047f£: G745. FG.03: 00 ‘O000 movil $0Ox3, -0x4 (Srbp) 
400486: 3b 45 fc IOV -0x4 (S$rbp),%Seax 
400489: G9 leaveq 
40048a: &3 retq 

000000000040048b <main>: 
40048b: 59 push S$rbp 
40048c: 48 89 e5 mov Srsp, Srbp 
40048f: b8 00 00 00 00 mov $0Ox0, Seax 
400494: &8: GBP :EE 二 于 :二 二 callqgq 400474<test> 
400499 : b8 00 00 00 00 mov $0Ox0, Seax 
40049e: C9 leaveq 
40049f: 3 retq 


这 段 代 码 中 的 000000000040048b<main> :是 程序 的 主 函 数 main， 函 数 名 前 面 的 十 六 进 制 数 
000000000040048p 是 函数 的 起 始 地 址 ， 每 个 数字 占 4 位 宽度 共 16 个 数字 ， 这 也 间接 说 明 该 程序 运行 
在 16 x4= 64 位 地 址 宽度 下 。 

乍 一 看 ， 有 好 多 个 gs 符号 。 还 记得 2.2.1 节 里 讲 的 AT&T 汇 编 语法 格式 吗 ? 这 就 是 引用 寄存 器 时 必须 
在 前 面 添 加 的 符号 前 级 。 还 有 一 些 汇编 指令 加 入 了 后 级 字母 1 和 qa, 字母 1 表示 操作 数 的 位 宽 是 32 位 (一 
个 双 字 )， 字 母 a 表示 操作 数 的 位 宽 是 64 位 (一 个 四 字 )。 


A 太 
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此 段 


它 是 32 位 寄存 器 ESP 的 扩展 ， 其 他 通 
1 此 看 来 ， 汇 编 语言 调 


执行 ， 


! 的 代码 leaveq 等 效 于 movq %$rbp，%rsp; popq %rbp;， 其 中 的 rsp 表 示 64 位 寄存 器 ， 


依然 可 以 获得 同样 的 效 细 


调 
JMP 指 令 却 不 会 把 返 


。 从 它们 的 


00499 压 人 栈 中 。 
1， 进 而 返回 到 主 


返回 地 址 入 栈 的 操作 ， 通 过 以 下 伪 代 码 即 可 替代 cALL 指 令 : 


pushq $0x0000000000400499 
jmpq 400474 <test> 
CALL 指 令 还 可 以 被 RET 指 令 所 取代 ， 在 执行 RET 指 令 时 ， 该 指令 会 弹出 栈 
从 返回 地 址 处 继续 执行 。 根 据 RET 指 令 的 执行 动作 ， 可 先 将 返回 地 址 0000000 
再 把 test 函数 的 人 口 地 址 0000000000400474 压 人 栈 中 ， 此 时 跳 转 地 址 和 返 
紧 接着 执行 RET 指 令 , 以 调用 返回 的 形式 从 主 函 数 main“ 返 
指令 的 伪 代 码 : 


pushq $0x0000000000400499 
pushq $0x0000000000400474 


retq 


整个 实现 过 程 是 不 是 没有 想象 
用 ， 和 希望 本 节 内 容 可 以 启发 读者 的 设计 灵感 ! 
2. 函数 的 调用 约定 
用 约定 描述 了 执行 函数 时 返回 地 址 和 参数 的 出 入 栈 规律 。 不 同 公司 开发 的 C 语 言 纺 
这 些 调 用 约定 的 差异 性 很 大 。 随 着 [BM 兼容 机 对 市 场 进行 洗 牌 后 ， 
仍 有 零星 的 几 家 公司 和 开源 项 目 GNU C 在 维 


函数 的 调 


都 有 各 自 的 函数 调用 约定 ， 而 日 


软 操 


的 那么 困难 ? 当 掌 握 了 汇编 


处 ， 随 后 再 跳 转 至 t 
且 test 国 数 执行 
阴 数 main 中 继续 执行 。 由 于 JMP 指 令 没 有 


寄存 器 同 理 。 代 码 cal1q 400474 的 意思 是 跳 转 到 test 函数 里 
用 C 语 言 的 函数 还 是 非常 简单 的 。 如 果 使 用 IJMP 汇 编 指 令 替 换 cALL 指 令 ， 


回 革 


dy 
完毕 ， 


区 别 来 看 ，cALL 指 令 会 把 其 后 的 那 条 指令 的 地 址 压 和 人 栈 中 ,作为 
用 的 返回 地 址 ， 也 就 是 代码 中 的 0000000000400499 地 芭 
回 地 址 00000000004 
reta 把 栈 中 的 返回 地 址 弹出 到 RIP 寄 存 器 


est 冰 数 里 执行 ， 而 
便 会 执行 代码 


1 保存 的 返回 地 址 ， 并 
000400499 压 人 栈 中 ， 


也 址 均 已 存 人 栈 中 ， 


回 ” 到 test 也 数 , 以 下 是 RET 指 令 取 代 CALL 


指令 的 原理 后 ,任何 指令 丝 可 灵活 运 


作 系统 和 编程 工具 占据 了 统治 地 位 。 除 微软 之 外 ， 


自己 的 调用 约定 。 下 孟 
口 stdcall 调 用 约定 


里 在 调用 函数 时 ， 参 数 将 按照 从 右 向 左 的 顺序 依次 压 入 栈 中 ， 例 如 下 面 的 function 函 数 ， 


i 将 介绍 几 球 比较 流行 的 函数 调 


约定 。 


参数 入 栈 顺 序 依次 是 second、first: 


int function(int first,int secongd) 


时 函数 的 栈 平衡 操作 ( 参数 出 栈 操作 ) 是 


译 央 


/区 


1 被 调用 函数 完成 的 。 通 过 代码 retn x 可 在 函数 返 
回 时 从 栈 中 弹出 x 字 节 的 数据 。 当 CPU 执行 RET 指 令 时 ， 处 理 器 会 自动 将 栈 指 针 寄 存 器 ESP 


向 上 移动 x 个 字 节 ， 来 模拟 栈 的 弹出 操作 。 例 如 上 面 的 function 函 数 ， 当 function 哺 数 返 
回 时 ， 它 会 执行 该 指令 把 参数 second 和 first 从 栈 中 弹出 来 ， 再 到 返回 地 址 处 继续 执行 。 

昌 在 函数 的 编译 过 程 中 ， 编 译 器 会 在 函数 名 前 用 下 划 线 修饰 ， 其 后 用 符号 e 修 饰 ， 并 加 上 入 栈 
的 字 节 数 ， 因 此 子 数 function 最 终 会 被 编译 为 _function@8。 


口 cdecl 调 用 约定 


加 cdecl 调 


四 函数 的 栈 平衡 操作 是 由 调 月 


约定 的 参数 压 栈 顺 序 与 stdcal 相 同 ， 和 皆 是 按照 从 右 向 左 的 顺序 将 参数 压 人 栈 中 。 
有 函数 完成 的 ， 这 点 与 stdcall 恰 恰 相 反 。stdcall 调 用 约定 使 用 代码 
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retn x 平 衡 栈 ， 而 cdecl 调 用 约定 则 通常 会 借助 代码 1eave、pop 或 向 上 移动 栈 指针 等 方法 来 


平衡 栈 。 
香 每 个 函数 调用 者 都 含有 平衡 栈 的 代码 ， 因 此 编译 生成 的 可 执行 文件 会 较 stdcall 调 用 约定 生成 
的 文件 大 。 

cdecl 是 GNU C 编 译 器 的 默认 调用 约定 。 但 GNU C 在 64 位 系统 环境 下 ， 却 使 用 寄存 器 作为 函 


数 参 数 的 传递 方式 。 函 数 调用 者 按照 从 左 向 右 的 顺序 依次 将 前 6 个 整 型 参数 放 在 通用 寄存 髓 
RDI、RSI、RDX、RCX、R8 和 R9 中 ; 同时， 寄存 器 XMM0~XMM7 用 来 保存 浮 点 变量 ， 而 
RAX 寄 存 髓 则 用 于 保存 隐 数 的 返回 值 ， 函 数 调 用 者 负责 平衡 栈 。 
口 fastcall 调 用 约定 
得 fastcall 调 用 约定 要 求 函 数 参数 尽 可 能 使 用 通用 寄存 器 ECX 和 EDX 来 传递 参数 , 通常 是 前 两 个 
int 类 型 的 参数 或 较 小 的 参数 ， 剩 余 参 数 再 按照 从 右 向 左 的 顺序 逐个 压 人 栈 中 。 
里 函数 的 栈 平 衔 操 作 由 被 调用 函数 负责 完成 。 
除 此 之 外 ， 还 有 很 多 调用 约定 ， 如 thiscall 、nakedcall 、pascal 等 ， 有 兴趣 的 读者 可 以 自行 研究 。 
3. 参数 传递 方式 
在 知晓 函数 的 调用 约定 后 不 难 发 现 ， 参 数 的 传递 方式 无 外 乎 两 种 ， 一 种 是 寄存 器 传递 方式 ， 另 一 
种 是 内 存 传 递 方式 。 由 于 这 两 种 参数 传递 方式 在 通常 情况 下 都 可 以 满足 开发 要 求 ， 所 以 参数 的 传递 方 
式 并 不 会 被 特殊 关注 。 但 在 编写 操作 系统 的 过 程 中 存在 许多 要 求 苛刻 的 场景 ， 使 得 我 们 不 得 不 掌握 这 
两 种 参数 传递 方式 的 特点 。 
口 寄存 器 传递 方式 。 寄 存 器 传递 方式 就 是 通过 寄存 器 来 传递 函数 的 参数 。 此 种 传递 方式 的 优点 是 
执行 速度 快 ， 只 有 少数 调用 约定 默认 使 用 寄存 器 来 传递 参数 的 ， 而 绝 大 部 分 编译 器 需要 特殊 指 
定 传递 参数 的 寄存 器 。 
在 基于 x86 体 系 结构 的 Linux 内 核 中 ， 系 统 调用 API 一 般 会 使 用 寄存 器 传递 方式 。 因 为 ， 应 用 层 空 
间 与 内 核 层 空间 是 相隔 离 的 ， 若 想 从 应 用 层 把 参数 传递 至 内 核 层 ,最 便捷 的 方法 是 通过 寄存 器 
来 携带 参数 , 否则 就 只 能 大 费 周折 地 在 两 个 层 之 间 搬 运 数据 。 更 详细 的 解释 会 在 第 4 章 中 给 出 。 
口 内 存 传递 方式 。 在 大 多 数 情况 下 ， 函 数 参数 都 是 以 压 栈 方 式 传递 到 目标 函数 中 的 。 
同 在 x86 体 系 结构 的 Linux 内 核 中 ， 中 断 处 理 过 程 和 异常 处 理 过 程 都 会 使 用 内 存 传 参 方式 。( 从 
Linux 2.6 开 始 逐 渐 改 为 寄存 器 传递 方式 。 ) 因为 从 中 断 /异常 产生 到 调用 相应 的 处 理 ， 这 期 间 
的 过 渡 代 码 全 部 由 汇编 语言 编写 。 在 汇编 语言 跳 转 至 C 语 言 函 数 的 过 程 中 ，C 语 言 函 数 使 用 栈 
来 传递 参数 ,为 了 保证 两 种 开发 语言 的 无 颖 衔接， 在 汇编 代码 中 必须 把 参数 压 人 栈 中 ,然后 再 
跳 转 到 C 语 言 实现 的 中 断 处 理 函 数 中 执行 。 
以 上 内 容 均 是 基于 x86 体 系 结构 的 参数 传递 方式 。 而 在 x64 体 系 结构 下 ， 大 多 数 编译 器 选择 寄存 器 
传 参 方 式 。 
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我 想 绝 大 部 分 读者 对 C 语 言 并 不 陌生 ， 但 由 于 它 的 灵活 性 仅 次 于 变幻 莫 测 的 汇编 语言 ， 即 使 作者 
本 人 也 不 敢 说 熟练 掌握 或 精通 C 语 言 。 由 于 个 人 能 力 有 限 ， 下 面 仅 对 本 书 操作 系统 的 主要 开发 语言 
( GNU C 语 言 ) 进行 讲解 ， 整 个 讲解 过 程 侧 重 于 内 徐汇 编 语言 和 标准 C 语 言 扩展 两 个 方面 。 
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2.3.1 ”GNU C 内 肉 汇 编 语言 


在 很 多 操作 系统 开发 场景 中 ，C 语 言 依然 无 法 完全 代替 汇编 语言 。 例 如 ， 操 作 某 些 特殊 的 CPU 寄 
存 器 、 操 作 主板 上 的 某 些 IO 端 口 或 者 对 性 能 要 求 极为 苛刻 的 场景 等 ， 此 时 我 们 必须 在 C 语 言 内 藤 入 汇 


编 语言 来 满足 上 述 要 求 。 
GNU C 语 言 提供 了 关键 字 asm 来 声明 代码 是 内 髓 的 汇编 语句 ， 如 下 面 这 行 代码 : 
#define nop() _asm _ volatile _ ("nop \n\t") 


这 条 内 风 汇 编 语 句 的 作用 可 从 函数 名 中 知晓 ， 它 正 是 nop 函 数 ( 空 操作 函数 ) 的 实现 ， 同 时 该 函 
数 也 是 本 书 系统 内 核 支持 的 一 个 库 函 数 。 那 就 让 我 们 从 nop 函 数 和 手 ， 开 启 GNU C 内 骸 汇 编 语言 的 学 
习 之 旅 。 
从 nop 函 数 中 可 知 ，C 语 言 使 用 关键 字 asm 和 volatile 对 汇编 语句 加 以 修饰 ， 这 两 个 关 
键 字 在 C 语 言 内 椒 汇 编 语 句 时 经 常 使 用 。 
口 _asm 关键 字 : 用 于 声明 这 行 代码 是 一 个 内 骨 汇 编 表 达 式 ， 它 是 关键 字 asm 的 宏 定 义 
(#define asm asm)。 故 此 ， 它 是 内 徐汇 编 语言 必 不 可 少 的 关键 字 ， 任 何 内 藤 的 汇编 表 
达 式 都 以 此 关键 字 作为 开头 ; 如 果 和 希望 编写 符合 ANSI C 标 准 的 代码 ( 即 与 ANSI C 标 准 相 兼 
容 )， 那 么 建议 使 用 关键 字 asm__。 
口 volatile 关键 字 : 其 作用 是 告诉 编译 器 此 行 代码 不 能 被 编译 器 优化 ， 编 译 时 保持 代码 原 
状 。 由 此 看 来 ， 它 也 是 内 内 汇 编 语言 不 可 或 缺 的 关键 字 ， 否 则 经 过 编译 器 优化 后 ， 汇 编 语句 很 
可 能 被 修改 以 至 于 无 法 达到 预期 的 执行 效果 。 如 果 期 望 编写 处 符合 ANSI C 标 准 的 程序 ( 即 与 
ANSI C 标 准 兼容 )， 那 么 建议 使 用 关键 字 _ volatile 。 
GNU C 语 言 的 内 内 汇 编 表 达 式 并 非 像 aop 函 数 一 般 简单 ， 它 有 着 极为 复杂 的 书写 格式 。 接 下 来 将 
书写 格式 分 为 内 骨 汇 编 表 达 式 、 操 作 约 束 和 修饰 符 、 序 号 占 位 符 三 部 分 进行 讲解 。 
1. 内 赃 汇 编 表 达 式 
尽管 C 语 言 经 过 汇编 阶段 后 会 被 解释 成 汇编 语言 , 但 两 者 毕竟 是 不 同 的 开发 语言 , 为 了 在 C 语 言 内 
融入 一 段 汇编 代码 片段 ， 那 就 必须 在 每 次 退 入 汇编 代码 前 做 一 番 准 备 工作 ， 因 此 在 C 语 言 里 娩 入 汇编 
代码 要 比 纯粹 使 用 汇编 代码 复杂 得 多 。 般 入 前 的 准备 工作 主要 负责 确定 寄存 器 的 分 配 情况 、 与 C 程 序 
的 融合 情况 等 细节 ， 这 些 内 容 大 部 分 需要 在 内 舱 的 汇编 表达 式 中 显 式 标明 出 来 。 
GNU C 语 言 的 内 檬 汇编 表达 式 由 4 部 分 构成 ， 它 们 之 间 使 用 “: ”号 分 隔 ， 其 完整 格式 为 : 
外 令 部 分 : 输出 部 分 : 输入 部 分 : 损坏 部 分 
如 果 将 内 内 汇编 表达 式 当 作 杖 数 ， 指 令 部 分 是 函数 中 的 代码 ， 输 入 部 分 用 于 向 函数 传人 参数 ， 而 
输出 部 分 则 可 以 理解 为 函数 的 返回 值 。 以 下 是 这 4 部 分 功能 的 详细 解释 。 
口 指令 部 分 是 汇编 代码 本 身 ， 其 书写 格式 与 AT&T 汇 编 语言 程序 的 书写 格式 基本 相同 ， 但 也 存在 
些许 不 同 之 处 。 指 令 部 分 是 内 徐汇 编 表 达 式 的 必 填 项 ， 而 其 他 部 分 视 具 体 情况 而 定 ， 如 果 不 需 
要 的 话 则 可 以 直接 忽略 。 在 最 简单 的 情况 下 , 指令 部 分 与 常规 汇编 语句 基本 相同 ， 如 nop 函 数 。 
指令 部 分 的 编写 规则 要 求 是 : 当 指 令 表达 式 中 存在 多 条 汇编 代码 时 ， 可 全 部 书写 在 一 对 双 引 号 
中 ; 亦 可 将 汇编 代码 放 在 多 对 双 引 号 中 。 如 果 将 所 有 指令 编写 在 同一 双 引 号 中 , 那么 相 邻 两 条 
指令 间 必 须 使 用 分 号 〈; ) 或 换行 符 (\n ) 分 隔 。 如 果 使 用 换行 符 ， 通 常 在 其 后 还 会 紧 跟 一 个 
制 表 符 (\t )。 当 汇编 代码 引用 寄存 器 时 ， 必 须 在 寄存 器 名 前 再 添加 一 个 $ 符 ， 以 表示 对 寄存 
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器 的 引用 ， 例 如 代码 "movl $0x10, SSeax"。 

口 输出 部 分 紧 接 在 指令 部 分 之 后 ， 这 部 分 记录 着 指令 部 分 的 输出 信息 ， 其 格式 为 :“ 输 出 操作 约 
束 ”( 输 出 表达 式 )，“ 输 出 操作 约束 ”( 输 出 表达 式 )，……… 。 格 式 中 的 输出 操作 约束 和 输出 表 
达 式 成 对 出 现 ， 整 个 输出 部 分 可 包含 多 条 输出 信息 ,每 条 信息 之 间 必 须 使 用 逗号 “，” 分 隔 开 。 


括号 内 的 输出 表达 式 部 分 主要 负责 保存 指令 部 分 的 执行 结果 。 通常 情况 下 , 输出 表达 式 是 一 
个 变量 。 
双 引 号 内 的 部 分 ， 被 称 为 “输出 操作 约束 "， 也 可 简称 为 “输出 约束 "。 输 出 约束 部 分 必须 使 


用 等 号 “=” 或 加 号 “+” 进 行 修饰 。 这 两 个 符号 的 区 别 是 ， 等 号 “=” 意 味 着 输出 表达 式 是 
一 个 纯粹 的 输出 操作 ， 加 号 “+” 意 味 着 输出 表达 式 既 用 于 输出 操作 ， 又 用 于 输入 操作 。 不 
论 是 等 号 “=” 还 是 加 号 “+”， 它 们 只 能 用 在 输出 部 分 ， 不 能 出 现在 输入 部 分 ， 而 且 是 可 读 
写 的 。 关 于 输出 约束 的 更 多 内 容 ， 将 在 “操作 约束 和 修饰 符 ” 中 进行 补充 。 


口 输入 部 分 记录 着 指令 部 分 的 输入 信息 ， 其 格式 为 :“ 输 入 操作 约束 ”( 输 入 表达 式 ),“ 输 入 操作 
约束 "(输入 表达 式 )，……… 。 格式 中 的 输入 操作 约束 与 输入 表达 式 同样 要 求 成 对 出 现 ， 整 个 输 
入 部 分 亦 可 包含 多 条 输入 信息 , 并 用 逗号 “，” 分 隔 开 。 在 输入 操作 约束 中 不 允许 使 用 等 号 “=” 
和 加 号 “+”， 因 此 输入 部 分 是 只 读 的 。 

口 损坏 部 分 描述 了 在 指令 部 分 执行 的 过 程 中 , 将 被 修改 的 寄存 器 、 内 存 空间 或 标志 寄存 器 ,并且 
这 些 修改 部 分 并 未 在 输出 部 分 和 输入 部 分 出 现 过 ， 格 式 为 :“ 损 坏 描述 ”,，“ 损 坏 描述 ”，……” 。 
如 果 需 要 声明 多 个 寄存 器 ,， 则 必须 使 用 逗号 “，” 将 它们 分 隔 开 ， 这 点 与 输入 /输出 部 分 一 致 。 


寄存 器 修改 通知 。 这 种 情况 一 般 发 生 在 寄存 器 出 现 于 指令 部 分 ， 又 不 是 输入 /输出 操作 表达 
式 指 定 的 寄存 器 ， 更 不 是 编译 器 为 或 g 约束 选择 的 寄存 器 。 如 果 该 寄存 器 被 指令 部 分 所 
修改 ， 那 么 就 应 该 在 损坏 部 分 加 以 描述 ， 比 如 下 面 这 行 代码 : 


asm Volatile _ ("movl %0,%%ecx"::"a"(_ tmp):"cx"); 


这 有 段 汇编 表达 式 的 指令 部 分 修改 了 寄存 器 ECX 的 值 ， 却 未 被 任何 输入 /输出 部 分 所 记录 ， 那 
么 必须 在 损坏 部 分 加 以 描述 , 一 旦 编译 器 发 现 后 续 代 码 还 要 使 用 它 ， 便 会 在 内 内 汇编 语句 的 
过 程 中 做 好 数据 保存 与 恢复 工作 。 如 果 未 在 损坏 部 分 描述 ， 则 很 可 能 会 影响 后 续 程序 的 执行 
结果 。 

注意 ， 已 在 损坏 部 分 声明 的 寄存 器 ， 不 能 作为 输入 /输出 操作 表达 式 的 寄存 器 约束 ， 也 不 会 
被 指派 为 gs 、r 、g 约束 的 寄存 器 。 如 果 在 输入 /输出 操作 表达 式 中 已 明确 选 定 寄 存 器 ， 
或 者 使 用 a 、r 、g 约束 让 编译 器 指派 寄存 器 时 ， 编 译 吉 对 这 些 寄存 器 的 状态 非常 清楚 ， 
它 知道 哪些 寄存 器 将 会 被 修改 。 除 此 之 外 ， 编 译 器 对 指令 部 分 修改 的 寄存 器 却 一 无 所 知 。 

内 存 修改 通知 。 除 了 寄存 器 的 内 容 会 被 自 改 外 ,内存 中 的 数据 同样 会 被 修改 。 如 果 一 个 内 扔 
汇编 语句 的 指令 部 分 修改 了 内 存 数据 , 或 者 在 内 嵌 汇 编 表 达 式 出 现 的 地 方 , 内 存 数据 可 能 发 
生 改 变 ， 并且 被 修改 的 内 存 未 使 用 m 约束 。 此 时 ， 应 该 在 损坏 部 分 使 用 字符 串 memory ， 
向 编译 避 声 明 内 存 会 发 生 改变 。 

如 果 损 坏 部 分 已 经 使 用 memory 对 内 存 加 以 约束 ， 那 么 编译 器 会 保证 在 执行 汇编 表达 式 之 
后 ,重新 向 寄存 器 装载 已 引用 过 的 内 存 空 间 ， 而 非 使 用 寄存 器 中 的 副本 ， 以 防止 内 存 与 副本 
的 数据 不 一 致 。 


出 
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和 标志 寄存 器 修改 通知 。 当 内 散 汇 编 表 达 式 中 包含 影响 标志 寄存 器 RIEFLAGSs 的 指令 时 ， 必 须 
在 损坏 部 分 使 用 cc 来 向 编译 器 声明 这 一 点 。 
2. 操作 约束 和 修饰 符 
每 个 输入 /输出 表达 式 都 必须 指定 自身 的 操作 约束 。 操作 约束 的 类 型 可 以 细 分 为 寄存 器 约束 、 内 存 
约束 和 立即 数 约束 。 在 输出 表达 式 中 ,还 有 限定 寄存 器 操作 的 修饰 符 。 

口 寄存 器 约束 限定 了 表达 式 的 载体 是 一 个 寄存 器 ， 这 个 寄存 器 可 以 明确 指派 ,， 亦 可 模糊 指派 再 由 
编译 器 自行 分 配 。 寄 存 器 约束 可 使 用 寄存 器 的 全 名 , 也 可 以 使 用 寄存 器 的 缩写 名 称 , 如 下 所 示 : 


_asm volatile _("movl g0,g%gcr0"::"eax" (cr0)); 
_asm volatile _("movl %0,%%cr0"::"a" (cr0)); 


如 果 使 用 寄存 器 的 缩写 名 称 ， 那 么 编译 需 会 根据 指令 部 分 的 汇编 代码 来 确定 寄存 器 的 实际 位 
宽 。 表 2-3 记 录 了 常用 的 约束 缩写 名 称 。 


表 2-3 ”常用 约束 缩写 名 称 表 


缩写 描 述 编写 ee 
r 任何 输入 /输出 型 的 寄存 器 d ”使 用 RDX/EDX/DX/DL 寄 存 器 
q ”从 EAX/EBX/ECX/EDX 中 指派 一 个 寄存 器 D 使 用 RDIEDI/DI 寄 存 器 
g 寄存 器 或 内 存 空间 S 使 用 RSUESISI 寄 存 器 
m ”内 存 空间 f ”选用 浮 点 寄存 器 
a 使 用 RAX/EAX/AX/AL 寄 存 器 i 一 个 整数 类 型 的 立即 数 
b ”使 用 RBX/EBX/BX/BL 寄 存 器 F 个 浮 点 类 型 的 立即 数 
c 使 用 RCX/ECX/CX/CL 寄 存 器 


口 内 存 约束 限定 了 表达 式 的 载体 是 一 个 内 存 空间 , 使 用 约束 名 nm 表示, 例如 以 下 内 构 汇 编 表 达 式 : 


AasSi -VOLatlile - ("sgdt 入 0 "em (> Odt -addr)se); 
_asm volatile _ ("lgdt %0"::"m"(__gdt_addr)); 


口 立即 数 约束 只 能 用 于 输入 部 分 , 它 限 定 了 表达 式 的 载体 是 一 个 数值 ， 如 果 不 想 借助 任何 寄存 器 
或 内 存 ， 那 么 可 以 使 用 立即 数 约束 ， 比 如 下 面 这 行 代码 : 


_asm _ volatile ("movl $0,%%ebx"::"i"(50)); 
使 用 约束 名 i 限定 输入 表达 式 是 一 个 整数 类 型 的 立即 数 , 如 果 和 希望 限定 输入 表达 式 是 一 个 浮 点 
数 类 型 的 立即 数 ， 则 使 用 约束 名 F 。 立 即 数 约束 只 能 使 用 在 输入 部 分 。 
口 修饰 符 只 可 用 在 输出 部 分 ， 除 了 等 号 = 和 加 号 + 外 ,还 有 gx 符 。 符 号 & 只 能 写 在 输出 约束 部 
分 的 第 二 个 字符 位 置 上 ， 即 只 能 位 于 = 和 + 之 后 ， 它 告诉 编译 器 不 得 为 任何 输入 操作 表达 式 分 
配 该 寄存 器 。 因 为 编译 器 会 在 输入 部 分 赋值 前 ， 先 对 & 符号 修饰 的 寄存 器 进行 赋值 ， 一 旦 后 面 
的 输入 操作 表达 式 向 该 寄存 器 赋值 ， 将 会 造成 输入 和 输出 数据 混乱 。 


补充 说 明 只 有 在 输入 约束 中 使 用 过 模糊 约束 (使 用 q、r 或 g 等 约束 缩写 ) 时 ， 在 输出 约束 中 使 用 符 
号 & 修 饰 才 有 意义 ! 如 果 所 有 输入 操作 表达 式 都 明确 指派 了 寄存 器 ， 那 么 输出 约束 再 使 用 
符号 & 就 没有 任何 意义 。 如 果 没 有 使 用 修饰 符 &<， 那 就 意味 着 编译 器 将 先 对 输入 部 分 进行 
赋值 ， 当 指令 部 分 执行 结束 后 ， 再 对 输出 部 分 进行 操作 。 
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3. 序号 占 位 符 
序号 占 位 符 是 输入 /输出 操作 约束 的 数值 映射 ， 每 个 内 舱 汇 编 表 达 式 最 多 只 有 10 条 输入 /输出 约 
束 ， 这 些 约 束 按照 书写 顺序 依次 被 映射 为 序号 0~-9。 如 果 指 令 部 分 想 引 用 序号 占 位 符 ， 必 须 使 用 百 分 
号 $ 前 缀 加 以 修饰 ， 例 如 序号 占 位 符 80 对 应 第 1 个 操作 约束 ， 序 号 占 位 符 81 对 应 第 2 个 操作 约束 ， 依 次 
类 推 , 指令 部 分 为 了 区 分 序号 占 位 符 和 寄存 器 , 特使 用 两 个 百 分 号 (%%) 对 寄存 器 加 以 修饰 , 在 编译 时 ， 
编译 器 会 将 每 个 占 位 符 代 表 的 表达 式 替 换 到 相应 的 寄存 器 或 内 存 中 。 

指令 部 分 在 引用 序号 占 位 符 时 ， 可 以 根据 需要 指定 操作 位 宽 是 字 节 或 者 字 ， 也 可 以 指定 操作 的 字 
节 位 置 ， 即 在 $ 与 序号 占 位 符 之 间 择 入 字母 bp 表示 操作 最 低 字 节 ， 或 插入 字母 hn 表 示 操 作 次 低 字 节 。 


2.3.2 GNU C 语言 对 标准 C 语言 的 扩展 


为 了 提高 C 语 言 的 易 用 性 和 开发 效率 ，GNU C 语 言 在 标准 C 语 言 的 基础 上 引入 了 诸多 人 性 化 的 扩 
展 。 下 面 主要 讲解 今后 开发 操作 系统 将 会 涉及 的 技巧 ， 和 平时 研发 过 程 中 使 用 频率 比较 高 的 内 容 。 

1. 柔性 数组 成 员 《或 称 零 长 数组 、 变 长 数组 ) 

GNU C 语言 允许 使 用 长 度 为 0 的 数组 来 增强 结构 体 的 灵活 性 ， 其 在 动态 创建 结构 体 时 有 着 非常 明 
显 的 优势 ， 例 如 下 面 这 几 行 代码 : 

struct 8 {int n;long d[0];}:; 


int m = 数值 ; 
struct s xp = malloc(sizeof (struct s) + sizeof (long [ml])); 


struct s 结 构 体 中 的 数组 成 员 变 量 a 在 作用 上 与 指针 极为 相似 ,但 是 在 为 指针 p 开 辟 存 储 空间 时 
却 仅 需 执行 一 次 mal1loc 函 数 。 由 此 可 见 ， 柔性 数组 成 员 不 仅 能 够 减少 内 存 空间 的 分 配 次 数 提高 程序 
执行 效率 ， 还 能 有 效 保持 结构 体 空间 的 连续 性 。 

2. case 关 键 字 支持 范围 匹配 

GNU C 语 言 允 许 case 关 键 字 匹配 一 个 数值 范围 ， 由 此 可 以 取代 多 级 的 if 条 件 检测 语句 。 以 下 这 
段 代 码 的 执行 条 件 是 待 匹配 字符 为 小 写字 母 : 

is 

break; 

3. typeof 关 键 字 获取 变量 类 型 

借助 关键 字 typeof (x) 可 以 取得 变量 x 的 数据 类 型 ， 在 编写 宏 定 义 时 ,关键 字 typeof 经 常会 派 上 
用 场 。 

4. 可 变 参数 宏 

在 GNU C 语 言 中 宏 函 数 允 许 使 用 可 变 参 数 类 型 ， 例 如 : 


#define pr_debug (fmt,arg...) \ 
printk (fmt,##arg) 


在 这 段 代 码 中 ， 当 可 变 参数 arg 被 忽略 或 为 空 时 ，printk 男 数 中 的 ## 操 作 将 迫使 预 处 理 需 去 掉 它 
前 面 的 那个 逗号 。 如 果 在 调用 宏 函 数 时 ， 确 实 提供 了 若干 个 可 变 参数 ,那么 GNU C 会 把 这 些 可 变 参 数 
放 到 逗号 后 面 ， 使 其 能 够 正常 工作 。 


24 第 2 章 环境 搭建 及 基础 知识 


5. 元 素 编号 


标准 C 语 言 规定 数组 和 结构 体 必须 按照 固定 顺序 对 成 员 ( 或 元 素 ) 进行 初始 化 赋值 。GNU C 语 言 
为 使 数组 和 结构 体 初始 化 更 加 自由 ,特意 放宽 了 此 限制 , 使 得 数组 可 以 在 初始 化 期 间 借助 下 标 对 某 些 


元 素 (元素 可 以 是 连续 的 或 者 不 连续 的 ) 进行 赋值 ， 并 在 结构 体 初 始 化 过 程 


! 允 许 使 用 成 员 名 直接 对 


成 员 进 行 赋值 。 与 此 同时 ，GNU C 语 言 还 允许 数组 和 结构 体 按照 任意 顺序 对 成 员 (或 元 素 ) 进行 初始 


化 赋值 。 以 下 是 两 者 的 初始 化 实例 : 


unsigned char qata[MAX] = 
{ 


[0]=10, 
[EO 15S0)sL00 
[SDD 


六 
struct file operations ext2_file operations= 
{ 

open:ext2_open, 

close:ext2_close, 


站 


Linux 2.6 以 后 的 内 核 源码 已 经 开始 使 用 上 述 初 始 化 扩展 。 读 者 在 编写 Linux 驱 动 时 , 推荐 采用 以 下 


初始 化 方式 : 


struct file operations ext2_file operations= 
{ 

.read=ext2_readgd, 

.write=ext2_write, 


于 
6. 当前 函数 名 


GNU C 语 言 为 当前 函数 的 名 字 准 备 了 两 个 标识 符 ， 它 们 分 别 是 PRETTY_ _FUNCTION_ “和 


”FUNCTION 


， 其 中 __FUNCTION_ 标识 符 保 存 着 函数 在 源码 中 的 名 字 ， 


PRETTY__FUNCTION 


标识 符 则 保存 着 带 有 语言 特色 的 名 字 。 在 C 函 数 中 ， 这 两 个 标识 符 代表 的 函数 名 字 相 同 ， 参 考 代 码 如 


下 所 示 : 


void func_ example() 
{ 

printf("the function name is %s",_ FUNCTION ); 
} 


在 C99 标 准 中 ， 只 规定 标识 符 _ func ”能 够 代表 函数 的 名 字 ， 而 __FUNCTION__ 虽 被 各 类 编译 器 


广泛 支持 , 但 只 是 func_ 标识 符 的 宏 别 名 。 
7. 特殊 属性 声明 


GNU C 语 言 还 允许 使 用 特殊 属性 对 函数 、 变 量 和 类 型 加 以 修饰 ， 以 便 对 它们 进行 手工 代码 优化 和 
定制 。 在 声明 处 加 入 关键 字 _attribute__((ATTRIBUTE) ) 即 可 指定 特殊 属性 ， 关 键 字 中 的 
ATTRIBUTE 是 属性 说 明 ， 如 果 存 在 多 个 属性 ， 必 须 使 用 逗号 隔 开 。 目 前 GNU C 语 言 支持 的 属性 说 明 有 


noreturn、 noinline、 always_inline、 pure、 const、 nothrow、 format 、format_arg、 


no_instrument_function, section, constructor, destructor, used. 


: 各 
weak、 malloc、 aliaswarn unused result nonnull 等 。 


unused, deprecated. 
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noreturn 属 性 用 来 修饰 函数 ， 表 示 该 函数 从 不 返回 。 这 会 使 编译 融 在 优化 代码 时 吻 除 不 必要 的 
警告 信息 。 例 如 : 


#define ATTRIB_NORET _ attripbute,_((noreturn)) .... 
asmlinkage NORET_TYPE void do_exit (long error_code) ATTRIB_NORET; 


packed 属 性 的 作用 是 取消 结构 在 编译 时 的 对 齐 优 化 , 使 其 按照 实际 占用 字 节 数 对 齐 。 这 个 属性 经 
常 出 现在 协议 包 的 定义 中 ， 如 果 在 定义 协议 包 结 构 体 时 加 入 了 packed 属 性 ， 那 么 编译 器 会 取消 各 个 
成 员 变 量 间 的 对 齐 填充 ， 按照 实 际 占用 字 节 数 进行 对 齐 。 例 如 下 面 这 个 结构 体 ， 它 的 实际 内 存 占用 量 
为 1 B+4 B+8 B=13 B: 


struct example_struct 
{ 
char a; 
int 3 
TONd. "GeY> 
} _ attribute __((Dacked) ) ; 


regparm(n) 属性 用 于 以 指定 寄存 器 传递 参数 的 个 数 ， 该 属性 只 能 用 在 函数 定义 和 声明 里 ， 寄 存 
器 参数 的 上 限 值 为 3 〈 使 用 顺序 为 EAX、EDX、ECX )。 如 果 函 数 的 参数 个 数 超过 3 ， 那 么 剩余 参数 将 
使 用 内 存 传 递 方式 。 

值得 注意 的 一 点 是 ，r*egpazrm 属 性 只 在 x86 处 理 器 体系 结构 下 有 效 ， 而 在 x64 体 系 结构 下 ，GUN C 
语言 使 用 寄存 器 传 参 方式 作为 函数 的 默认 调用 约定 。 无 论 是 否 采用 regpazrm 属 性 加 以 修饰 ， 画 数 都 会 
使 用 寄存 器 来 传递 参数 ， 即 使 参数 个 数 超过 3 ， 依 然 使 用 寄存 器 来 传递 参数 ， 具 体 细 节 遵 照 cdecl 调 用 
约定 。 请 看 下 面 这 个 例子 : 


int q = 0x5a; 


3 
oe 
nit 37 .3 
int t4 = 4; 


#define REGPARM3 __attributel( (regparm(3))) 
#define REGPARMO _ attribute((zegparm(0) ) ) 
void REGPARMO P1(int a) 


void REGPARM3 p2(int a, int b, int c, int qd) 


q9=a+b+c+d+1; 


int main() 

t 
pl(t1); 
BEETLRE2S 人 CI 
return 0; 


使 用 下 面 这 条 objdump 命 令 将 这 段 程序 反 汇编 ,让 我 们 从 汇编 级 来 看 看 regparm 属 性 对 函数 调用 
约定 的 影响 : 
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obJjqump -D 可 执行 程序 
此 条 命令 中 的 选择 -D 用 于 反 汇 编程 序 中 的 所 有 段 ， 包 括 代 码 段 、 数 据 段 、 只 读数 据 段 以 及 其 他 辅 
助 段 等 。 而 此 前 使 用 过 的 选项 -a 只 能 反 汇 编 出 程序 的 代码 段 。 以 下 是 反 汇 编 出 的 部 分 程序 片段 : 


Disassembly of section .text: 
0000000000400474 <p1l>: 


400474: S55 push $rbp 
400475 : 48 89 e5 mov S$rsp, Srbp 
400478: 89 .7g. fe& IOV Sedi,—-0x4(%rbp) 
40047b: 8 49,f€ mov -0x4 (%rbp),%Seax 
40047e: 83 c0 01 adq SOx1, Seax 
400481: 89 05 3d 04 20 00 mov Seax, 0x20043d (%rip) #6008c4 <qa> 
400487: c9 leaveq 
400488 : C3 retqa 
0000000000400489 <p2>: 
400489: 55 push $rbp 
40048a: 48 89 e5 mov S$rsp, Srbp 
40048d: 89 7d fc mov Sedi,-0x4(%$rbp) 
400490: 全 75 人 mov Sesi,-0x8 (S$rbp) 
400493 : 89 557.f4 mov Sedx, -0xc (S$rbp 
400496: 89 4q f0 mov Secx, -0x10 (%$rbp) 
400499 : 8b 45 f8 mov -0x8 (Srbp), Seax 
40049c: 8D. S55. ,fe IOV -0x4(%rbp),%Sedx 
40049f: 8Q 04 02 lea (Srdx, Srax,1), Seax 
4004a2: O03 e454 adqd -0xc (Srbp),%Seax 
4004a5: 03 45 f0 adqd -0x10 (8%rpbpP) ,区 eaX 
4004a8 : 83: C0. .01 adq $0Ox1, Seax 
4004ab: 89 05 13 04 20 00 mov Seax, Ox200413 (Srip) # 6008c4 <q> 
4004b1: C9 leaveq 
4004b2: C3 retqa 
00000000004004b3 <main>: 
4004b3: 5 push $rbp 
4004b4: 48 89 e5 TOV Srsp, Srbp 
4004b7 : S53 push Srbx 
4004b8: 8b 05 0a 04 20 00 mov Ox20040a (Srip),%eax #6008c8 <t1> 
4004be: 89 c7 mov Seax, gedi 
4004c0: e8 af ff ff ff callgq 400474<p1l> 
4004c5: 8b 0q 09 04 20 00 mov 0x200409 (%rip),%ecx #6008d4 <t4> 
4004cb: 85..15.,ff."03;, 20..00 mov Ox2003ff(%rip),%edx #6008d0 <t3> 
4004d1 : 8D: 1-E5 .03 20 .00 mov Ox2003f5 (%rip),%ebx #6008cc <t2> 
4004g7: 8b 05 eb 03 20 00 mov Ox2003eb(%rip),%eax #6008c8 <t1> 
4004dd: 89 de mov Sebx, Sesi 
4004gf: 站 了 mov Seax, gedi 
4004el : 上 callgq 400489<p2> 
4004e6: b8 00 00 00 00 mov $0Ox0, Seax 
4004eb: 5b pop Srbx 
4004ec: 9 leaveq 
4004ed: C3 retqa 
4004ee: 0 nop 
4004ef: 90 nop 


Disassembly of section .data: 
00000000006008c0 <_ data_start>: 
6008c0: 00 00 adqd Sal, (Srax) 


2.3 C 语 言 2 


00000000006008c4 <q>: 
6008c4: 5a pop Srdx 
6008c5: 00 00 add $al, (Srax) 


00000000006008c8 <t1>: 
6008c8: 01 00 add Seax, (Srax) 


00000000006008cc <t2>: 
6008cc : 02 00 add (Srax), Sal 


00000000006008d0 <t3>: 
6008d0: 03 00 add (Srax) ,Seax 


00000000006008d4 <t4>: 
6008d4: 04 00 add $0x0, Sal 


如 果 读 者 参照 2.2.3 节 中 描述 的 cdecl 调 用 约定 可 知 ,在 x64 体 系 结构 下 , 函数 采用 寄存 器 传 参 方式 。 
而 此 段 代 码 也 确实 通过 寄存 器 向 函数 pl1 和 p2 传 递 参数 ， 按 照 从 左 至 右 的 顺序 依次 使 用 RDI、RSI、 
RDX、RCX 这 4 个 寄存 器 ， 这 却 与 regparm 属 性 的 规定 完全 不 一 致 。 由 此 看 来 ,在 基于 x64 体 系 结构 的 
GNU C 语 言 环境 中 ， 属 性 regparm 已 经 不 再 起 作用 了 。 


和 ee 一 二 


第 二 部 分 


初级 局 


初级 篇 将 快速 搭建 起 一 个 操作 系统 和 雏形， 使 读者 初步 了 解 操 作 系 统 的 组 织 结 
构 、 各 模块 的 功能 以 及 模块 间 的 联系 ， 包 括 如 下 3 章 内 容 。 

口 第 3 章 Bootloader 引导 启动 程序 ; 

口 第 4 章 内 核 层 ; 

口 第 5 章 应 用 层 。 

以 上 3 章 内 容 将 会 把 引导 启动 、 内 核 层 和 应 用 层 的 功能 和 执行 过 程 展 现在 
读者 面前 ， 并 使 用 少量 代码 组 建成 一 个 简单 的 操作 系统 框架 模型 。 整 个 组 建 过 
程 将 尽量 规避 复杂 和 难以 理解 的 内 容 。 待 到 高 级 篇 再 做 详细 解释 、 知 识 深化 和 
功能 追加 。 


第 3 章 


BootLoader 引 导 启 动 程序 


本 章 将 采用 一 种 简洁 、 高 效 的 开发 方式 对 BootLoader 引 导 启 动 程序 进行 讲解 ， 进 而 将 BootLoader 
引导 启动 程序 的 整体 概貌 展现 在 读者 面前 ， 然 后 在 高 级 篇 里 对 BootLoader 引 导 启 动 程序 的 更 多 技术 细 
节 再 做 进一步 解释 。 

BootLoader 引 导 启 动 程序 原本 由 Boot 引 导 程 序 和 Loader 引 导 加 载 程序 两 部 分 构成 。Boot 引 导 程 序 
主要 负责 开机 启动 和 加 载 Loader 程 序 ; Loader 引 导 加 载 程序 则 用 于 完成 配置 硬件 工作 环境 、 引 导 加 载 
内 核 等 任务 。 

从 这 一 章 开始 ， 将 正式 进入 操作 系统 开发 环节 。 话 不 多 说 ， 精 彩 即 刻 开 始 ! 
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计算 机 上 电 启 动 后 ， 首 先 会 经 过 BIOS 上 电 自 检 ， 这 个 过 程 BIOS 会 检测 硬件 设备 是 否 存 在 问题 
如 果 检 测 无 误 的 话 ， 将 根据 BIOS 的 启动 项 配置 选择 引导 设备 ， 目前 BIOs 支 持 的 设备 启动 项 有 软盘 启 
动 、U 盘 启动 、 硬 盘 启 动 以 及 网 络 启动 。 通 常情 况 下 ，BIOS 会 选择 硬盘 启动 作为 默认 启动 项 ， 但 从 简 
单 和 易 实现 等 角度 来 看 ， 还 是 选择 最 为 简单 的 软盘 启动 。 关 于 U 盘 启动 技术 将 在 后 续 的 高 级 篇 中 予以 
讲解 和 实现 。 

为 了 让 读者 阅读 起 来 更 有 动力 ， 此 处 先 把 运行 效果 展示 出 来 ， 然 后 再 逐步 编码 实现 。 图 3-1 便 是 


Boot 引 导 程 序 的 最 终 运 行 效果 图 。 


Bochs x86-64 emulator, http://bochs.sourcet 


图 3-1” Boot 运行 效果 图 
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在 图 3-1 的 左上 角 处 不 难 发 现 ， 除 软盘 A 的 图 标 显 示 有 软盘 存在 外 ， 软 盘 B 、 光 驱 、 鼠 标 等 设备 均 


处 于 未 连接 状态 ， 这 正 是 我 们 在 虚拟 平台 环境 配置 文件 pochsrc 里 设置 的 软盘 启动 


o 屏幕 中 的 start 


Boot..... 是 程序 打印 在 屏幕 上 的 日 志 信 息 。 至 于 为 什么 要 显示 这 些 内 容 ,请 读者 在 阅读 完 本 节 内 容 
后 自己 找 出 答案 。 


3.1.1 BIOS 引导 原理 
为 什么 所 有 操作 系统 都 从 Boot 引 导 程序 开始 ? 


这 个 问题 要 追溯 到 BIOS 自 检 设 备 开始 。 当 BIOS 自 检 结 束 后 会 根据 启动 选项 设置 ( 这 里 指 软 驱 启 
动 ) 去 选择 启动 设备 ， 即 检测 软盘 的 第 0 磁头 第 0 磁道 第 1 扇 区 ， 是 否 以 数值 0x55 和 0xaa 两 字 节 作为 结 


尾 。 如 果 是 ， 那 么 BIOS 就 认为 这 个 局 区 是 一 个 Boot Sector (引导 扇 区 )， 进 而 把 此 


天 区 的 数据 复制 到 


物理 内 存 地 址 0x7c00 处 ， 随 后 将 处 理 需 的 执行 权 移交 给 这 段 程序 ( 跳 转 至 0x7c00 地 址 处 执行 大 图 3-2 


展示 了 软盘 的 磁盘 结构 。 


图 3-2 ”软盘 的 磁盘 结构 图 
从 图 3-2 可 知 ， 软 盘 的 第 0 磁头 第 0 磁道 第 1 扁 区 实则 是 软盘 的 第 一 个 扇 区 。 对 于 一 张 3.5 英 寸 的 


1.44 MB 软盘 而 言 ， 一 个 扇 区 的 容量 仅 有 512 B， 而且 BIOS 只 负责 加 载 这 一 个 扇 区 的 数据 到 物理 内 
存 中 , 一 个 容量 只 有 512 B 的 引导 扇 区 是 无 法 容纳 操作 系统 的 ,甚至 连 获 取 硬 件 信 息 的 检测 程序 都 
容纳 不 下 。 鉴 于 如 此 苛刻 的 容量 限制 ，Boot 引 导 程 序 仅 能 作为 一 级 助 推 器 ， 将 功能 更 强大 的 引导 
加 载 程序 Loader 装 载 到 内 存 中 ， 这 也 可 以 看 做 是 硬件 设备 向 软件 移交 控制 权 。 一 旦 Loader 引 导 加 


载 程序 开始 执行 ， 那 么 一 切 都 交 由 我 们 编写 的 软件 来 控制 。 
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引导 扇 区 里 的 程序 自然 应 该 叫 作 引 导 程 序 。 在 BIOS 向 引导 程序 移交 执行 
器 进行 初始 化 ， 这 其 中 就 包括 处 理 吕 的 代码 段 寄 存 器 CS 和 指令 指针 寄存 器 了 


权 之 前 ，BIOS 会 对 处 理 
。 当 BIOS 跳 转 至 引导 程 


序 时 ，CS 寄 存 器 和 IP 寄 存 器 的 值 分 别 为 0x0000 和 0x7c00。 此 时 的 处 理 器 正 处 于 实 模式 下 ， 物 理 地 址 


必须 经 过 CS 寄存 器 和 IP 寄 存 器 转换 才能 得 到 ， 转 换 公式 为 : 物理 地 址 = CS << 
0x7c00 处 。 


4+IP， 也 就 是 物理 地 址 


因为 引导 程序 只 能 装 在 一 个 鹿 区 里 ， 还 要 以 0x55 、0xaa 作 为 结束 标识 数据 ， 那 么 引导 程序 的 有 


效 数 据 长 度 为 512 B -2 B， 即 510 B。 这 510 B 虽 然 足够 写 一 个 加 载 Loader 的 汇编 程序 ， 但 以 何 种 形式 


存储 和 加 载 Loader， 却 是 一 个 需要 认真 考虑 的 问题 。 


如 果 用 直接 写 入 到 固定 扇 区 的 方法 加 载 Loader, 那么 以 后 的 内 核 程序 也 需要 ] 


指定 固定 的 扇 区 来 加 载 。 


如 果 将 Loader 引 导 加 载 程序 直接 保存 到 固定 扇 区 中 ,那么 今后 的 内 核 程序 也 必须 使 用 固定 扇 区 来 


加 载 。 这 种 方法 的 好 处 是 ，Boot 引 导 程 序 的 加 载 代码 会 比较 容易 实现 ， 只 明 硬 
起 始 磁 头号 、 磁 道 号 、 扁 区 号 和 所 占 扇 区 块 数 ， 即 可 将 其 加 载 到 内 存 


Loader 引 导 加 载 程 序 的 


。 即 使 待 加 载 的 扇 区 在 物理 上 


或 者 逻辑 上 是 不 连续 的 ， 也 没有 问题 。 该 方法 同样 可 以 应 用 到 Loader 程 序 加 载 系统 内 核 中 。 但 是 伴随 


着 程序 代码 量 的 不 断 增 加 ，Loader 和 内 核对 扇 区 的 需求 量 也 会 日 益 增 长 ,每 次 


向 存储 介质 ( 包括 软盘 、 


硬盘 、U 盘 等 ) 写 人 Loader 与 内 核 ， 都 要 重新 计算 它们 的 起 始 扇 区 和 占用 旋 区 数 。 而 且 ， 对 于 每 次 修 


改 完 程序 急于 看 到 执行 结果 的 我 们 来 说 ， 此 种 做 法 会 变 得 越 来 越 不 方便 。 如 明 


还 希望 加 载 开 机 画面 、 


系统 服务 等 诸多 文件 和 程序 ， 该 种 方法 势必 会 带 来 等 多 不 便 ， 同 时 也 会 大 量 修 改 Boot 和 Loader 代 码 。 


方法 ， 即 为 软盘 创建 文件 系统 。 
我 知道 你 们 想 说 什么 ， 一 开始 就 讲 文件 系统 会 不 会 太 难 了 些 ? 


分 析出 上 述 浆 端 因 素 后 ， 与 其 每 次 都 调整 Boot 和 Loader 程 序 ， 倒 不 如 采用 一 次 性 投资 终生 受益 的 


其 实 ， 一 个 简单 的 文件 系统 并 没有 想象 中 那么 复杂 ， 像 FAT12/16 这 类 软盘 型 文件 系统 还 是 非常 简 


单 易 懂 的 ， 仅 需 一 些 简单 的 逻辑 即 可 实现 FAT12 文 件 系统 。 也 正 因为 这 类 文件 系统 逻辑 简单 、 容 易 实 
现 ， 所 以 将 FAT12 文 件 系 统 作 为 软盘 文件 系统 以 及 后 续 的 U 盘 文件 系统 再 合适 不 过 了 。 
接 下 来 将 结合 代码 实现 ， 分 片段 讲解 Boot 引 导 程 序 各 实现 环节 的 关键 技术 点 。 


3.1.2” 写 一 个 Boot 引导 程序 


下 面 就 以 一 个 简单 的 引导 程序 为 例 ， 拉 开 操 作 系统 开发 的 序幕 。 这 个 引导 程序 采用 Intel 汇 编 语言 
格式 编写 ， 编 译 代码 使 用 的 编译 器 为 NASM， 它 的 功能 并 不 复杂 ， 只 为 在 屏幕 上 显示 一 条 日 志 信 息 。 


以 此 开头 ， 一 来 可 以 让 初学 者 对 汇编 程序 有 所 熟悉 ， 二 来 作为 本 书 的 第 一 个 程序 ， 先 让 读者 热 热身 。 


代码 清单 3-1 是 引导 程序 的 寄存 器 初始 化 部 分 。 
代码 清单 3-1 第 3 章 \ 程 序 \ 程 序 3-1\boot.asm 


org 0x7c00 


BaseOfStack equ 0x7c00 


Label_Start: 


TOV 己 当 ， CS 
InOV ds, ax 


3. 
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ImOV es, ax 
ImOV ss, ax 
mov sp, BaseOfStack 


在 这 段 程序 中 ，org 是 Origin 的 英文 缩写 ， 意 思 为 起 始 地 址 或 源 地 址 。 这 条 伪 指令 用 于 指定 程序 的 
起 始 地 址 ， 若 程序 未 使 用 org 伪 指令 ， 那 么 编译 器 会 把 地 址 0x0000 作 为 程序 的 起 始 地 址 。 程 序 的 起 始 
地 址 将 主要 影响 绝对 地 址 寻 址 指令 ， 不 同 的 起 始 地 址 会 编译 生成 不 同 的 绝对 地 址 。 因 此 ， 代 码 org 
0x7c00 的 意思 是 , 将 程序 的 起 始 地 址 设置 在 0x7c00 处 。 至 于 为 什么 是 0x7c00, 想必 只 有 当年 的 BIOS 
工程 师 们 才 会 知道 。 既 然 BIOS 会 加 载 引 导 程序 至 内 存 地 址 0x7c00 处 ， 我 们 就 必须 将 引导 程序 的 起 始 


地 址 设置 在 此 处 ， 否 则 当 程序 访问 绝对 地 址 时 很 可 能 会 出 错 。 


再 看 下 一 条 汇编 代码 Baseofstack equ 0x7c00, 这 是 一 条 等 价 语句 , 它 将 标识 符 BaseOfStack 


等 价 为 数值 0x7c00。 其 中 ，equ 伪 指令 的 作用 是 ， 让 其 左边 的 标识 符 代表 右边 的 表达 式 。equ 等 价 语 
句 不 会 给 标识 符 分 配 存 储 空间 ， 而 且 标 识 符 不 能 与 其 他 符号 同名 ， 也 不 能 被 重新 定义 。equ 不 光 可 以 
代表 常量 和 表达 式 ， 也 可 以 代表 字符 串 以 及 一 些 助 记 符 。 代 码 中 的 标识 符 Baseofstack 用 于 为 栈 指 针 
寄存 器 SP 提供 栈 基 址 。 其 实 BIOS 并 未 要 求 栈 基 址 必须 设置 在 0ox7c00 地 址 处 ， 而 且 Boot 引 导 程 序 极 少 
涉及 栈 操作 ， 因 此 读者 不 必 担 心 栈 溢出 问题 。 最 后 几 条 指令 则 是 将 CS 寄存 器 的 段 基地 址 设置 到 DS、 


ES 、SS 等 寄存 器 中 ， 以 及 设置 栈 指针 寄存 器 SP。 


代码 清单 3-2 是 引导 程序 的 主体 代码 ， 它 的 功能 并 不 复杂 ，3 


FE 要 是 通 


过 BIOS 中 断 服务 程序 INT 10h 


实现 屏幕 信息 显示 相关 操作 。INT 10h 中 断 服 务 程序 要 求 在 调用 时 ， 必 须 向 AH 寄存 器 传人 服务 程序 的 


主 功能 编号 ， 再 向 其 他 寄存 器 传人 参数 。 以 下 是 完整 程序 实现 。 
代码 清单 3-2 第 3 章 \ 程 序 \ 程 序 3-1\boot.asm 


;======= clear sereen 


mov bb 0600h 
mov Bx 0700h 
mov GK 0 

moV dx, 0184fh 
int 10h 


;======= set focus 


mov ax, 0200h 
mov BX 0000h 
mov Ve > 0000h 
int 10h 


display on screen : Start Booting...... 


mov ax, 1301hn 

mov BD, 000fh 

mov dx; 0000h 

mov op. 10 

push ax 

mov ax, ds 

ImOV es, ax 

pop ax 

mov bp, StartBootMessage 
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这 段 代码 使 用 BIOS 中 断 服务 程序 INT 10h 的 主 功能 编号 有 06h、02h 和 13h， 它 们 的 功能 及 参数 说 明 
如 下 。 

@ 设置 屏幕 光标 位 置 

BIOS 中 断 服 务 程序 INT 10h 的 主 功能 号 AH=02h 可 以 实现 屏幕 光标 位 置 的 设置 功能 , 具体 寄存 器 参 
数 说 明 如 下 。 

INT 10h，AH=02h 功 能 : 设 定 光 标 位 置 。 
口 DH= 游 标的 列 数 ; 
口 DL= 游 标的 行 数 ; 
口 BH= 页 人 码 。 

这 条 语句 的 目的 是 ， 将 屏幕 的 光标 位 置 设置 在 屏幕 的 左上 角 (0,0) 处 。 不 论 是 行 号 还 是 列 号 ， 它 们 
皆 从 0 开始 计数 ， 屏 幕 的 列 坐标 0 点 和 行 坐标 0 点 位 于 屏幕 的 左上 角 ， 纵 、 横 坐标 分 别 向 下 和 向 右 两 个 
方向 延伸 ， 或 者 说 坐标 原点 位 于 屏幕 左上 角 。 

@ 上 卷 指定 范围 的 窗口 ( 包括 清 屏 功能 ) 

BIOS 中 断 服务 程序 INT 10h 的 主 功能 号 AH=06h 可 以 实现 按 指定 范围 滚动 窗口 的 功能 ， 同 时 也 具备 
清 屏 功 能 ， 具 体 寄存 器 参数 说 明 如 下 。 

INT 10h，AH=06h 功 能 : 按 指 定 范 围 滚 动 窗口 。 
口 AL= 滚 动 的 列 数 ， 若 为 0 则 实现 清空 屏幕 功能 ; 
口 BH= 滚 动 后 空 出 位 置 放 和 的 属性 ; 
口 CH= 滚 动 范围 的 左上 角 坐 标 列 号 ; 
口 CL= 滚 动 范围 的 左上 角 坐 标 行 号 ; 
口 DH= 滚 动 范围 的 右 下 角 坐 标 列 号 ; 
口 DL= 滚 动 范围 的 右 下 角 坐 标 行 号 ; 
口 BH= 颜 色 属 性 。 


得 bit 0~2: 字体 颜色 (0: 黑 ，1: 蓝 ，2: 绿 ,，3: 青 ，4: 红 , 5: 紫 ，6: 综 ，7: 白 )。 
和 bit3: 字体 亮度 (0: 字体 正常 ，1: 字体 高 亮度 )。 
昌 bit 4~6: 背景 颜色 (0: 黑 ，1: 蓝 ，2: 绿 ，3: 青 ，4: 红 , 5: 紫 ，6: 综 ，7: 白 )。 


得 bit7: 字体 闪烁 (0: 不 内 烁 ，1: 字体 闪烁 )。 
这 条 命令 主要 用 于 按 指定 范围 滚动 窗口 ， 但 是 如 果 AL=0 的 话 ， 则 执行 清 屏 功能 。 在 使 用 清 屏 功 
能 时 ( AL 寄存 融 为 0)， 其 他 BX、CX、DX 寄 存 带 参 数 将 不 起 作用 ， 读 者 无 需 纠结 它们 的 数值 。 
@ 显示 字符 串 
BIOS 中 断 服 务 程 序 INT 10h 的 主 功能 号 AH=13h 可 以 实现 字符 串 的 显示 功能 , 具体 寄存 器 参数 说 明 
如 下 。 
INT 10hn，AH=13h 功能 : 显示 一 行 字符 串 。 
口 AL= 写 人 模式 。 
AL=00h: 字符 串 的 属性 由 BL 寄存 器 提供 ， 而 CX 寄存 器 提供 字符 串 长 度 (以 B 为 单位 )， 显 
示 后 光标 位 置 不 变 ， 即 显示 前 的 光标 位 置 。 
别 AL=01h: 同 AL=00h， 但 光标 会 移动 至 字符 串 尾 端 位 置 。 
和 AL=02h: 字符 串 属性 由 每 个 字符 后 面 紧 跟 的 字 节 提供 ， 故 CX 寄 存 器 提供 的 字符 串 长 度 改 成 
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以 Word 为 单位 ， 显 示 后 光标 位 置 不 变 。 
和 AL=03h: 同 AL=02h， 但 光标 会 移动 至 字符 串 尾 端 位 置 。 
口 CX= 字 符 串 的 长 度 。 
口 DH= 游 标的 坐标 行 号 。 
口 DL= 游 标的 坐标 列 号 。 
口 ES:BP=> 要 显示 字符 串 的 内 存 地 址 。 
口 BH= 页 码 。 
口 BL= 字 符 属性 /颜色 属性 。 
和 bit 0~2: 字体 颜色 (0: 黑 ，1: 蓝 ，2: 绿 ，3: 青 , 4: 红 , 5: 紫 , 6: 综 ,， 7: 白 )。 
和 bit 3 : 字体 亮度 (0: 字体 正常 ，1: 字体 高 亮度 ) 
田 bit 4~6: 背景 颜色 (0: 黑 ，1: 蓝 ，2: 绿 ，3: 青 , 4: 红 , 5: 紫 , 6: 综 , 7; 和 白 )。 
里 bit7: 字体 闪烁 (0: 不 内 烁 ，1: 字体 闪烁 )。 
字符 串 的 显示 功能 ,算是 BIOS 中 断 服务 程序 中 使 用 比较 频繁 的 功能 。 该 功能 不 仅 可 以 显示 字符 
串 、 设 定 字体 的 前 景色 和 背景 色 ， 还 可 以 设置 待 显 示 字 符 串 的 坐标 位 置 。 此 功能 非常 适合 显示 不 同 的 
日 志 信 息 ， 因 此 在 后 续 开 发 过 程 中 将 会 多 次 使 用 到 。 
上 述 程序 已 经 完成 了 引导 程序 的 日 志 信 息 显 示 工 作 。 接 下 来 , 再 让 我 们 看 看 BIOS 中 断 服务 程序 是 
如 何 操 作 磁盘 驱动 器 的 ， 请 见 代码 清单 3-3。 
代码 清单 3-3 ”第 3 章 \ 程 序 \ 程 序 3-1\boot.asm 


;======= reset floppy 


尖刀 管 ah, ah 
KOE 但 dl 
int 13h 

jmp $ 


这 段 汇编 代码 实现 了 软盘 驱动 器 的 复位 功能 ， 它 相当 于 重新 初始 化 了 一 次 软盘 驱动 器 ， 从 而 将 软 
盘 驱 动 器 的 磁头 移动 至 默认 位 置 。 整 个 复位 过 程 是 通过 BIOS 中 断 服务 程序 INT 13h 的 主 功 能 号 AH=00h 
实现 的 ， 具 体 寄存 器 参数 说 明 如 下 。 
INT 13h，AH=00h 功能 : 重 置 磁盘 驱动 器 ， 为 下 一 次 读 写 软盘 做 准备 。 
口 DL= 驱 动 器 号 ，00H~7FH: 软盘 ; 80H~0FFH: 硬盘 。 
得 DL=00h 代 表 第 一 个 软盘 驱动 右 (“drive A:”); 
和 DL=01h 代 表 第 二 个 软盘 驱动 器 (“drive B:”); 
加 DL=80h 代 表 第 一 个 硬盘 驱动 器 ; 
得 DIL=81h 代 表 第 二 个 硬盘 驱动 器 。 
这 段 代 码 并 无 特别 用 意 ， 只 是 为 了 让 初学 者 多 了 解 一 些 BIOS 中 断 服 务 程 序 ， 以 应 对 后 续 的 开发 需 
求 。 代 码 清单 3-4 是 Boot 引 导 程 序 的 剩余 代码 ， 其 中 定义 了 一 个 字符 串 和 引导 程序 的 结束 标识 数据 等 内 
容 ， 详 情 如 下 。 


代码 清单 3-4 第 3 章 \ 程 序 \ 程 序 3-1\boot.asm 


StartBootMessage: db otart. BOGGt™ 
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;======= fill zero until whole sector 


times S50 (0 db 0 
dw 0xaa55 
剩余 代码 比较 好 理解 ， 它 首先 定义 一 个 字符 串 "Start Boot" ,并 取 名 为 StartBootMessage， 
汇编 代码 StartBootMessage: db "Start Boot" 可 以 理解 为 C 语 言 中 的 一 维 字 符 数 组 ， 而 标识 符 
StartBootMessage 可 以 看 作 数 组 名 。 
汇编 代码 times 510 - ($ - $$) ab 0 在 2.2.2 节 中 曾经 介绍 过 ， 其 中 ， 表 达 式 $ - $$ 的 意 
是 ， 将 当前 行 被 编译 后 的 地 址 ( 机 器 码 地 址 ) 减 去 本 节 (Section ) 程序 的 起 始 地 址 。 由 于 Boot 引 导 
程序 只 有 一 个 以 0x7c00 为 起 始 地 址 的 节 ， 那 么 表达 式 $ - $s 的 作用 是 计算 出 当前 程序 生成 的 机 器 码 
长 度 ， 进 而 可 知 引 导 扇 区 必须 填充 的 数据 长 度 (510 - ($ - $$) )。 又 因为 软盘 是 个 块 设备 ， 访 问 
块 设备 的 特点 是 每 次 必须 以 扇 区 为 单位 (512 B )， 而 times 伪 指令 恰好 可 以 实现 多 次 重复 操作 ， 所 以 这 
行 汇 编 代 码 的 目的 是 ， 通 过 times 伪 指令 填充 引导 书 区 剩余 空间 ， 以 保证 生成 的 文件 大 小 为 S12 B。 
最 后 ， 再 将 一 个 字 ( 0xaa55 ) 填充 到 程序 的 末尾 。 此 处 请 注意 ， 在 3.1.1 节 中 已 经 提 到 引导 扇 区 
是 以 0x55 和 0xaa 两 个 字 节 作 为 结尾 , 由 于 Intel 处 理 器 是 以 小 端 模式 存储 数据 , 那么 用 一 个 字 表示 0x55 
和 0xaa 就 应 该 是 0xaa55， 这 样 它 在 扇 区 里 的 存储 顺序 才 是 0x55、0xaa。 


3.1.3 创建 虚拟 软盘 镜像 文件 


现在 就 来 看 看 引导 程序 的 运行 效果 ， 我 们 还 需要 一 个 软盘 。 尽 管 软盘 和 软盘 驱动 器 已 经 退出 历史 
舞台 ， 好 在 绝 大 多 数 虚 拟 机 软件 都 提供 虚拟 软盘 驱动 器 和 创建 虚拟 软盘 镜像 的 功能 ，Bochs 虚 拟 机 也 
不 例外 。 那 么 现在 就 告诉 大 家 如 何 使 用 Bochs 虚 拟 机 自 带 工具 创建 虚拟 软盘 镜像 。 
其 实 按照 2.1.3 节 描述 的 Bochs 虚 拟 机 环境 搭建 步骤 编译 Bochs 虚 拟 机 源 代码 后 ， 不 仅 会 生成 Bochs 
虚拟 机 软件 ， 还 会 生成 一 些 辅助 工具 ， 这 其 中 就 包括 虚拟 磁盘 镜像 创建 工具 bximage。 

pbximage 工 具 ( 命令 ) 的 使 用 方式 非常 简单 仅 需 向 命令 行 终端 键 人 命令 pximage 再 按照 pximage 
命令 的 提示 内 容 进 行 选 择 ， 便 可 顺利 创建 出 虚拟 软盘 镜像 文件 。 而 且 ， 还 可 以 通过 pximage 命 令 创建 
虚拟 硬盘 镜像 文件 。 以 下 是 使 用 pximage 命 令 创建 虚拟 软盘 镜像 的 一 个 实例 : 


[root@localhost 1]# bximage 


田 
心 


bximage 
Disk Image Creation / Conversion / Resize and Commit Tool for Bochs 
$Id: bximage.cc 12364 2014-06-07 07:32:06Z vruppert $ 


1. Create new floppy or hard disk image 

2. Convert hard disk image to other format (mode) 
3. Resize hard disk image 

4. Commit 'undoable' redolog to base image 

5. Disk image info 


0. Quit 


Please choose one [0] 1 
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向 终端 命令 行 键入 pximage 即 可 出 现 上 述 信息 。 键 和 数字 1， 将 进入 虚拟 软盘 镜像 或 虚拟 硬盘 镜 
像 的 创建 流程 。 从 提示 内 容 的 字面 意思 可 知 ， 其 他 选项 与 虚拟 软盘 镜像 的 创建 过 程 无 关 ， 故 此 就 不 过 
多 介绍 了 ， 感 兴趣 的 读者 可 以 自行 研究 。 

当 执 行 1 选 项 后 ， 将 会 提示 用 户 选择 创建 磁盘 镜像 的 种 类 。 目 前 只 有 软盘 和 硬盘 两 种 类 型 ， 以 下 
是 详细 提示 信息 : 


Create image 


Do you want to create a floppy disk image or a hard disk image? 
Please type hd or fd. [hd] fa 


如 果 和 希望 创建 虚拟 软盘 镜像 则 键入 fta; 如 果 和 希望 创建 虚拟 硬盘 镜像 就 键入 ha。 当 键入 fd 后 ,将 
会 进入 软盘 容量 选择 步 又 ，1.44 MB 是 软盘 的 默认 容量 。 这 个 容量 对 应 的 是 最 通用 的 3.5 英 寸 软盘 ， 也 
是 本 次 开发 选用 的 软盘 类 型 : 

Choose the size of floppy disk image to create, in megabytes. 


Please type 160k, 180k, 320k, 360k, 720k, 1.2M, 1.44M, 1.68M, 1.72M, or 2.88M. 
[1 .44M] 


在 确定 软盘 容量 后 ， 还 要 为 虚拟 软盘 镜像 文件 命名 ,镜像 文件 的 默认 名 为 a.img， 这 里 将 本 系统 的 
虚拟 软盘 镜像 文件 命名 为 bootimg。 当 确认 镜像 文件 名 后 ，pximage 工 具 会 显示 出 虚拟 软盘 的 总 而 区 
数 等 信息 : 


What should pe the name of the image? 
[a.img] boot.img 


Creating floppy image 'boot.img' with 2880 sectors 


The following line should appear in your bochsrc: 
floppya: image="boot.img", status=inserted 


最 后 一 行 提示 信息 floppya: image="boot.img"，status=inserteqd， 告诉 用 户 如 何 把 镜像 
文件 加 入 到 虚拟 平台 环境 配置 信息 里 ， 其 中 status 是 虚拟 软盘 镜像 的 状态 ， inserted 的 意思 是 已 将 
虚拟 软盘 插入 到 虚拟 软盘 驱动 如 中 。 

bximage 工 具 不 仅 可 以 创建 虚拟 磁盘 镜像 文件 ， 还 可 以 查看 虚拟 磁盘 镜像 文件 的 硬件 配置 信息 ， 
如 镜像 类 型 、 磁 盘 容 量 、 人 磁头 数 、 磁 道 数 以 及 扇 区 数 等 ， 详 见 下 面 这 个 例子 : 


[root@localhost 1]# bximage 


bximage 
Disk Image Creation / Conversion / Resize and Commit Tool for Bochs 
$sId: bximage.cc 12364 2014-06-07 07:32:06Z vruppert $ 


1. Create new floppy or hard disk image 

2. Convert hard disk image to other format (mode) 
3. Resize hard disk image 

4. Commit 'undoable' redolog to base image 

5. Disk image info 
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Ox OWE 


Please choose one [0] 5 
键入 数字 5， 进 入 磁盘 信息 查看 功能 ， 以 下 是 进入 该 功能 后 的 提示 信息 : 


Disk image info 


What is the name of the image? 
[c.img] boot.img 


此 时 ,输入 之 前 创建 好 的 虚拟 软盘 镜像 文件 名 boot.img， 随 后 便 会 显示 虚拟 软盘 的 硬件 配置 信 


[omy 


disk image mode = 'flat' 
hgd_size: 1474560 
geometry = 2/16/63 (1 MB) 


以 上 硬盘 配置 信息 显示 了 磁盘 镜像 文件 类 型 :“ 软 盘 镜 像 ”( flat ) 磁盘 镜像 文件 大 小 1474560 B， 
并 描述 虚拟 软盘 拥有 2 个 磁头 、64 个 磁道 、16 个 扇 区 。 

特别 注意 ， 正 常 3.5 英 寸 软盘 的 容量 是 1.44 MB=1440 x 1024 KB=1474560 B， 软 盘 共 包含 2 个 磁头 、 
80 个 磁道 、18 个 扁 区 。 此 处 的 pximage 工 具 只 正确 解析 出 虚拟 磁盘 容量 是 1474560 B， 而 对 磁道 数 和 
鹿 区 数 的 计算 有 误 ， 按 照 每 扇 区 容量 $12 B 来 计算 ,该 虚拟 软盘 的 总 容量 是 2 x 16 x 64 x 512 = 
1048576 B= 1 MB， 少 了 425984 B = 832 x 512 B。 因 此 推断 bximage 工 具 是 按照 1 MB 软盘 容 
计算 的 ， 而 非 1.44 MB 磁盘 容量 。 可 见 bximage 工 具 还 存在 许多 bug 有 待 更 正 。 


地 
导 
do 


3.1.4 在 Bochs 上 运行 我 们 的 Boot 程序 
经 过 引导 程序 的 编写 和 虚拟 软盘 镜像 文件 的 创建 工作 后 ， 现 在 是 时 候 让 引导 程序 在 虚拟 机 中 运 


行 了 


首先 来 编译 3.1.2 节 撰写 的 引导 程序 。 此 前 已 经 说 明 过 ， 引 导 程 序 会 使 用 NASM 编 译 需 进行 编译 ， 
nasm 命 令 是 该 编译 器 提供 的 编译 工具 。 由 于 nasm 命 令 的 参数 其 多 无 法 逐个 介绍 ， 本 着 现 学 现 用 的 原 
则 ， 此 处 仅 对 即将 使 用 的 -o 参 数 予 以 介绍 。nasm 命 令 编译 汇编 文件 的 编译 格式 为 : nasm 汇编 语言 源 
文件 名 -o 目标 程序 名 。 其 中 的 参数 -o 指 定编 译 后 的 输出 文件 名 ， 以 下 是 编译 引导 程序 使 用 的 编译 


命令 : 


nasm boot .asm -o boot .bin 

编译 结束 后 ， 便 可 将 生成 的 二 进 制 程序 文件 写 人 到 虚拟 软盘 镜像 文件 内 。 请 注意 ， 此 处 说 的 是 写 
入 到 虚拟 软盘 镜像 文件 内 ， 而 不 是 复制 到 虚拟 软盘 镜像 文件 内 。 由 于 引导 程序 被 强行 写 人 到 虚拟 软盘 
的 第 一 个 鹿 区 中 ， 这 个 引导 局 区 写 人 过 程 并 不 属于 文件 系统 管理 范畴 。 如 果 使 用 “复制 ”一 词 将 会 牵 
涉 文 件 系统 的 操作 ， 感 觉 描述 不 恰当 ， 而 用 “ 写 人 ”一 词 相 对 更 合理 些 。 

说 到 这 里 ,我 们 将 会 使 用 aa 命令 把 引导 程序 强制 写 人 到 虚拟 软盘 的 固定 扇 区 中 ,这 种 强制 写 人 固 
定 扇 区 的 方法 能 够 跳 过 文件 系统 的 管理 与 控制 ， 转 而 直接 操作 磁盘 扁 区 。 话 不 多 说 ， 下 面 就 来 看 看 如 
何 使 用 aq 命令 把 引导 程序 强制 写 入 到 引导 扇 区 中 : 


dq if=boot.bin of=../../bochs-2.6.8/boot.img bs=512 count=1 conv=notrunc 
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这 行 命令 中 的 if = boot .bin 指 定 输入 源 文件 名 ， 而 of=. ./../bochs-2.6.8/boot.img 则 指 
定 输出 文件 名 , 参数 bs=512 指 定 传输 的 块 大 小 为 512 B, 参数 count=1 指 定 写 人 到 目标 文件 的 块 数量 ， 
参数 conv=notrunc 规 定 在 写 人 数据 后 不 截断 (改变 ) 输出 文件 的 尺寸 大 小 ， 以 下 是 此 条 命令 的 执行 
日 


-人 过 
志 信 息 : 


\ 


1+0 records in 
1+0 records out 
512 bytes (512 B) copied, 0.000155041 s, 3.3 MB/s 


从 本 章 开 始 至 此 ， 经 过 多 个 环节 的 实现 与 说 明 ， 终 于 到 了 收获 的 时 刻 。 参 照 如 下 bochs 命 令 启动 
虚拟 机 ， 其 中 的 参数 -f . /bochsrc 指 定 虚 拟 机 环境 配置 文件 的 路 径 名 : 

[root@localhost bochs-2.6.8]# bochs -f ./bochsrc 

特别 注意 , 在 运行 虚拟 机 之 前 , 请 确保 虚拟 软盘 镜像 文件 boot.img、 虚 拟 平台 环境 配置 文件 bochsrc 
以 及 其 他 文件 的 路 径 一 定 要 正确 ， 否 则 虚拟 机 将 无 法 正常 运行 。 
如 果 一 切 运 行 顺利 ， 当 Bochs 虚 拟 机 启动 后 ， 将 会 在 终端 命令 行 中 显示 一 个 文字 选项 界面 ， 界 症 
显示 的 文字 信息 如 下 所 示 : 


You can also start bochs with the -q option to skip these menus . 


[root@localhost 1]# qq if=boot.bin of=../../bochs-2.6.8/boot.img bs=512 count=1 
Conv=notrunc | 


. Restore factory default configuration 
. Read options from... 

. Edit options 

. Save options to... 

. Restore the Bochs state from... 

. Begin simulation 

. Quit now 


sl OC hs LO 


Please choose one: [6] 
当 这 个 文字 界面 出 现 后 ， 默 认 执 行 选 项 是 数字 6 ( 表示 开始 运行 虚拟 机 )， 其 他 选项 则 与 虚拟 平台 
的 环境 配置 有 关 。 因 为 在 执行 bochs 命 令 时 ， 已 经 为 虚拟 平台 明确 指定 了 环境 配置 文件 bochsrc， 此 处 


便 无 需 再 配置 平台 环境 ， 直 接 运 行 虚拟 机 即 可 。 图 3-3 是 虚拟 机 启动 后 的 图 形 界面 效果 。 


Bochs x86-64 emulaton http://bochs.sourceforge.net/ 


图 3-3 ”虚拟 机 启动 界面 
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现在 的 虚拟 机 刚 启动 ， 它 只 完成 了 硬件 平台 的 初始 化 ， 还 未 执行 引导 程序 。 此 时 的 终端 命令 


出 命令 行 会 


显示 如 下 信息 。 只 要 在 终端 命令 行 中 输入 字符 串 c/cont/continue 中 的 任意 一 种 ， 即 可 使 虚拟 机 运 


行 。 此 刻 ， 虚 4 


来 还 有 好 多 路 要 二 


3.1 


Boot 引 时 程序 的 工作 。 


/ 忆 


Next at 七 =0 
(0) [0x0000fffffff0] 
<bochs :1> c 


£0:0.0:; EE 


以 机 开始 执行 Boot 引 导 程 序 : 


£0 (unk; 


Gt) 


jmpf 0xf000:e05b 


; ea5be000f0 


激动 人 心 的 时 刻 就 要 到 了 ， 是 否 ;# 


IPS: 23.857M 


| 国 国 Nu lcars 


储备 好 了 ? 图 3-4 便 是 引导 程序 的 运行 效果 。 


CRL lc | | | 


历经 多 节 课程 的 学 习 ， 终 于 见 到 了 运行 效 
lE， 以 后 会 逐渐 加 快 前 进 的 步伐 。 


.5 ”加 载 Loader 到 内 存 


图 3-4 


应 


R。 现 在 ， 


拟 机 启动 界 国 
这 个 操作 系统 已 经 成 功 地 近 出 了 第 一 步 。 未 


目前 ， 操 作 系统 已 经 实现 了 一 个 简单 的 引导 程序 ， 只 需 在 此 基础 上 加 入 文件 加 载 功能 ， 即 可 完成 


说 到 加 载 Loader 程 序 ， 最 理想 


码 的 易 实现 性 ， 本 操作 系统 将 选用 逻 


De 
| 


证， 


区 划分 成 引导 扇 


进而 把 软盘 扇 
@ 引导 扇 区 


FAT12 文 件 系统 的 引导 扇 区 不 仅 包 含有 引导 程序 ， 还 有 FAT12 文 从 
8 情况 ， 它 相当 于 EXT 类 文件 系统 的 superblock 结 构 ， 


的 方法 
辑 简单 的 FAT12 文 件 系统 来 装载 Loader 程 序 和 
在 将 软盘 格式 化 成 FAT12 文 件 系 统 的 过 程 中 ，FAT 类 文件 系统 会 对 软盘 里 的 
区 、FAT 表 、 根 


目录 区 和 数据 


些 信息 描述 了 FAT12 文 件 系统 对 磁盘 


但 是 与 EXT 类 文 从 
统 的 引导 局 


区 结构 。 


户 区 的 管理 


自然 是 从 文件 系统 中 把 Loader 程 序 加 载 到 内 存 里 。 考 虑 到 代 


内 核 程序 。 
计 区 进行 结构 化 处 


区 4 部 分 。 


F 系 统 相 比 ，FAT 类 文件 系统 的 结构 更 简单 、 


易 


系统 的 整个 组 成 结构 信息 。 这 


于 实现 。 表 3-1 便 描述 了 FAT12 文 件 系 
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表 3-1 FAT12 文 件 系统 引导 扇 区 结构 


名 称 偏 移 ”长 度 内 容 本 系统 引导 程序 数据 
BS_jmpBoot 0 3 跳 转 指令 jmp short Label Start nop 
BS_OEMName 3 8 生产 厂商 名 'MINEboot' 
BPB_BytesPerSec 11 2 每 扇 区 字 节 数 512 
BPB_SecPerClus 13 1 每 簇 肩 区 数 1 
BPB_RsvdSeccnt 14 2 保留 扁 区 数 1 
BPB_NumFATS 16 1 FAT 表 的 份 数 之 
BPB_RootEntCnt 17 2 根 目录 可 容纳 的 目录 项 数 224 
BPB_TotSec16 19 2 总 扇 区 数 2880 
BPB_Media 21 1 ”介质 描述 符 OxF0 
BPB_FATSZz16 22 2 每 FAT 扇 区 数 9 
BPB_SecPerTYrK 24 2 每 磁道 扇 区 数 18 
BPB_NumHeads 26 2 磁头 数 之 
BPB_HiddSec 28 4 隐藏 扇 区 数 0 
BPB_Tot Sec32 32 4 ”如 果 BPB_TotSec16 值 为 0%， 则 由 这 个 值 记 录 遍 区 数 ” “0 
BS_DrvNum 36 1 int 13h 的 驱动 器 号 0 
BS_Reservedl1 37 1 未 使 用 0 
BS_BootSig 38 1 扩展 引导 标记 ( 29h ) 0x29 
BS_VolID 39 4  ， 卷 序列 号 0 
BS_VolLab 43 11 卷 标 'boot loader 
BS_FileSysType 54 8 文件 系统 类 型 FAT12， 
引导 代码 62 448 “引导 代码 、 数 据 及 其 他 信息 
结束 标志 510 ”2 结束 标志 0xAA55 0xAA55 


从 表 3-1 中 可 以 看 出 ， 在 引导 程序 的 起 始 处， 首先 定义 的 是 Bs_jmpBoot 字 段 。 从 字面 意思 可 知 ， 

它 是 一 句 跳 转 代码 ， 这 是 由 于 Bs_jmpBoot 字 段 后 面 的 数据 不 是 可 执行 程序 ， 而 是 FAT12 文 件 系统 的 

组 成 结构 信息 ， 故 此 必须 跳 过 这 部 分 内 容 。 字 段 长 度 为 3， 说 明 汇 编 代 码 jmp short Label_Starti 

nop 经 过 编译 后 ， 一 共生 成 三 个 字 节 的 机 器 码 ， 其 中 nop 会 生成 一 个 字 节 的 机 器 码 ，jmp short 

Label_Sstart 会 生成 两 个 字 节 的 机 需 码 。 

口 BS_OEMName。 记 录制 造 商 的 名 字 ， 亦 可 自行 为 文件 系统 命名 。 

口 BPB_SecPerclus。 描 述 了 每 簇 扇 区 数 。 由 于 每 个 扇 区 的 容量 只 有 512 B， 过 小 的 户 区 容量 5 
能 会 导致 软盘 读 写 次 数 过 于 频繁 ， 从 而 引入 复 〈Cluster ) 这 个 概念 。 簇 将 2 的 整数 次 方 个 扇 区 
作为 一 个 “原子 ”数据 存储 单元 ， 也 就 是 说 篮 是 FAT 类 文件 系统 的 最 小 数据 存储 单位 。 

口 BPB_Rsvdseccnt。 指 定 保 留 扇 区 的 数量 ， 此 域 值 不 能 为 0。 保 留 扇 区 起 始 于 FAT12 文 件 系统 
的 第 一 个 扇 区 ， 对 于 FAT12 而 言 此 位 必须 为 1!1， 也 就 意味 着 引导 扇 区 包含 在 保留 扇 区 内 ， 所 以 
FAT 表 从 软盘 的 第 二 个 扇 区 开始 。 
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口 BPB_NumFATs。 指 定 FAT12 文 件 系统 中 FAT 表 的 份 数 ， 任 何 FAT 类 文件 系统 都 建议 此 域 设置 为 
2。 设 置 为 2 主要 是 为 了 给 FAT 表 准备 一 个 备份 表 ， 因 此 FAT 表 1 与 FAT 表 2 内 的 数据 是 一 样 的 ， 
FAT 表 2 是 FAT 表 1 的 数据 备份 表 。 

口 BPBE_RootEntcnt。 指 定 根 目录 可 容纳 的 目录 项 数 。 对 于 FAT12 文 件 系统 而 言 ， 这 个 数值 乘 以 

32 必 须 是 BPB_BytesPergsec 的 偶数 倍 。 

口 BPB_Totsec16。 记 录 着 总 扇 区 数 。 这 里 的 总 扇 区 数 包 括 保留 扇 区 ( 内 含 引 导 扇 区 )、FAT 表 、 根 

目录 区 以 及 数据 区 占用 的 全 部 扇 区 数 ， 如 果 此 域 值 为 0， 那 么 BPB_TotSsec32 字 段 必须 是 非 0 值 。 

口 BPB_Media。 描 述 存 储 介质 类 型 。 对 于 不 可 移动 的 存储 介质 而 言 ， 标 准 值 是 0xF8。 对 于 可 移 
动 的 存储 介质 ， 常 用 值 为 0xrF0， 此 域 的 合法 值 是 0xF0、0xF8、0xF9、0xFA、0xFB、0xFC、 
0xFD、0xFE、0xFF。 男 外 提醒 一 点 ， 无 论 该 字段 写 人 了 什么 数值 ， 同 时 也 必须 向 FAT[0] 的 低 
字 节 写 和 人 相同 值 。 

口 BPB_FATsz16。 记 录 着 FAT 表 占用 的 扇 区 数 。FAT 表 1 和 FAT 表 2 拥有 相同 的 容量 ， 它 们 的 容量 

均 由 此 值 记 录 。 

口 Bs_VolLab。 指 定 卷 标 。 它 就 是 Windows 或 Linux 系 统 中 显示 的 磁盘 名 。 

口 Bs_FilesysType。 描 述 文件 系统 类 型 。 此 处 的 文件 系统 类 型 值 为 'Far12 '， 这 个 类 型 值 只 
是 一 个 字符 串 而 已 ， 操 作 系 统 并 不 使 用 该 字段 来 鉴别 FAT 类 文件 系统 的 类 型 。 

依据 表 3-1 提 供 的 文件 系统 结构 信息 ， 可 将 软盘 扇 区 描绘 成 如 图 3-5 所 示 的 结构 。 


2879; 
数据 区 
根 目录 区 | 名 称 数值 
| 接 -| 
18 | BPB_RsvdSecCnt 1 
BPB_NumFATs 2 
FAT2 和 
10 BPB_TotSec16 2880 
9 BPB FATSz16 9 
FATI 
] 
引导 局 区 
0 
人 
局 区 号 


图 3-5 ”软盘 文件 系统 分 配 图 
以 上 就 是 FAT12 文 件 系统 引导 扇 区 结构 的 介绍 。FAT16 、FAT32 等 FAT 类 文件 系统 都 是 在 FAT12 文 
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件 系统 的 基础 上 扩展 而 得 ，FAT32 文 件 系统 将 会 在 未 来 的 章节 中 了 予以 使 用 。 
@ FAT 表 
FAT1> 文 件 系统 以 复 为 单位 来 分 配 数据 区 的 存储 空间 ( 扇 区 )， 每 个 复 的 长 度 为 BPB_BytesPerSec * 

BPB_SecPerClus 字 节 ， 数据 区 的 簇 号 与 FAT 表 的 表 项 是 一 一 对 应 关系 。 因 此 ， 文 件 在 FAT 类 文件 

系统 的 存储 单位 是 复 ， 而 非 字 节 或 扇 区 ， 即 使 文件 的 长 度 只 有 一 个 字 节 ，FAT12 文 件 系 统 也 会 为 它 

分 配 一 个 簇 的 磁盘 存储 空间 。 此 种 设计 方法 可 以 将 磁盘 存储 空间 按 固定 存储 片 ( 页 ) 有 效 管理 起 来 ， 

进而 可 以 按照 文件 偏 移 ， 分 片段 访问 文件 内 的 数据 ， 就 不 必 一 次 将 文件 里 的 数据 全 部 读 取出 来 。 
FAT 表 中 的 表 项 位 宽 与 FAT 类 型 有 关 ， 例如，FAT12 文 件 系 统 的 表 项 位 宽 为 12 bitr、FAT16 文 件 系统 

的 表 项 位 宽 为 16 bit、FAT32 文 件 系统 的 表 项 位 宽 为 32 bit。 当 一 个 文件 的 体积 增 大 时 ， 其 所 需 的 磁盘 存 

储 空间 也 会 增加 ， 随 着 时 间 的 推移 ,文件 系统 将 无 法 确保 文件 中 的 数据 存储 在 连续 的 磁盘 扇 区 内 ， 文 

件 往往 被 分 成 若干 个 片段 。 借 助 FAT 表 项 ， 可 将 这 些 不 连续 的 文件 片段 按 艇 号 链接 起 来 ， 这 个 链接 原 

理 与 C 语 言 的 单 向 链表 极为 相似 。 表 3-2 以 FAT12 文 件 系 统 为 例 ， 来 对 FAT 表 项 的 取 值 加 以 说 明 。 


表 3-2 FAT 表 项 取 值 说 明 


FAT 项 实例 值 描 述 

0 FFOh 磁盘 标示 字 ， 低 字 节 与 BPB_Media 数 值 保持 一 致 
1 FFFh 第 一 个 徐 已 经 被 占用 

2 003h 000h: 可 用 入 

3 004h 002h~FEFh: 已 用 簇 ， 标识 下 一 个 簇 的 簇 号 
i FFOh~FF6h: 保留 簇 

N FFFh FF7h: 坏 簇 

N+1 000h FF8h~FFFh: 文件 的 最 后 一 个 簇 


注 : FAT[0] 和 FAT[H] 始 终 不 作为 数据 区 的 索引 值 使 用 。 


其 中 ，FAT[0] (FAT 表 项 0 ) 的 低 8 位 在 数值 上 与 BPB_Media 字 段 保 持 一 致 ， 剩 余 位 全 部 设置 为 1。 
由 于 表 3-1 的 BPB_Medaia 字 段 数值 是 F0h， 故 此 FAT[0] 的 值 是 FEF0h。 在 文件 系统 初始 化 期 间 ， 已 经 明确 
地 将 FAT[1] 赋 值 为 FFFh， 想 必 这 是 为 了 防止 文件 系统 误 分 配 该 表 项 。 

现在 ， 大 部 分 操作 系统 的 FAT 类 文件 系统 驱动 程序 都 直接 跳 过 这 两 个 FAT 表 项 的 检索 ， 使 它们 不 
再 参与 计算 。 因 此 ，FAT[0] 和 FAT[1] 的 数值 已 经 不 再 那么 重要 了 ， 有 了 时候 这 两 个 值 为 0 也 是 没 问 题 的 。 
我 们 在 编写 程序 时 不 必 检 测 它 们 的 数值 ， 直 接 跳 过 即 可 。 

@ 根 目 录 区 和 数据 区 

从 本 质 上 讲 ， 根 目录 区 和 数据 区 都 保存 着 与 文件 相关 的 数据 ， 只 不 过 根 目录 区 只 能 保存 目录 项 信 
息 ， 而 数据 区 不 但 可 以 保存 目录 项 信息 ， 还 可 以 保存 文件 内 的 数据 。 

此 处 提 及 的 目录 项 是 一 个 由 32 B 组 成 的 结构 体 ， 它 既 可 以 表示 成 一 个 目录 ， 又 可 以 表示 成 一 个 文 
件 ， 其 中 记录 着 名 字 、 长 度 以 及 数据 起 始 簇 号 等 信息 ， 表 3-3 是 目录 项 的 完整 结构 。 对 于 树 状 的 目录 结 
构 而 言 ， 树 的 层级 结构 自然 是 通过 代表 着 目录 的 目录 项 结构 建立 起 来 ， 从 根 目录 开始 经 过 目录 项 的 逐 
层 肯 套 渐 渐 地 形成 了 树 状 结构 ， 更 多 详细 内 容 将 会 在 第 13 章 中 予以 讲解 。 
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表 3-3 ”目录 项 结构 


FAT[0] 和 FAT[1] 是 保留 项 ， 不 能 


者 1。 


名 称 偏 移 长 度 描 述 
DIR_Name 0x00 11 文件 名 8 B， 扩 展 名 3 B 
DIR_Attr 0x0B 1 文件 属性 
保留 0x0C 10 保留 位 
DIR_WrtTime 0x16 之 最 后 一 次 写 人 时间 
DIR_WrtDate 0x18 2 最 后 一 次 写 入 日 期 
DIR_FstClus 0x1A 2 起 始 簇 号 
DIR_ FileSize 0x1C 4 文件 大 小 


对 于 表 3-3 中 的 DIR_FstClus 字 段 必 须 特别 注意 ， 


] 于 数据 区 的 簇 索 引 ， 


它 描述 了 文件 在 磁盘 中 存放 的 


功能 。 代 码 清 单 3-5$ 是 为 虚拟 软盘 创建 的 FAT12 文 件 系统 引导 扇 区 数据 。 
代码 清单 3-5 ”第 3 章 \ 程 序 \ 程 序 3-2\boot.asm 


org 0x7c00 
BaseOfStack 0x7c00 
BaseOfLoader 0x1000 
OffsetOfLoader 0x00 
RootDirSectors 
SectorNumOfRootDirStart 
SectorNumOfFAT1Start 
SectorBalance 
jmp Short Label_Start 
nop 
BS_OEMName db 
BPB_BytesPerSec dw 
BPB_SecPerClus db 
BPB_RsvdSecCnt dw 
BPB_NumFATS db 
BPB_RootEntCnt dw 
BPB_TotSec16 dw 
BPB_Media db 
BPB_FATSz16 dw 
BPB_SecPerTrk dw 
BPB_NumHeads dw 
BPB_hiddsec dd 
BPB_TotSec32 dq 
BS_DrvNum db 
BS_Reservedl1 db 
BS_BootSig db 
BS_VolID dd 


equ 14 
equ 19 
equ 1 
equ 了 


'MINEboot' 
512 


具体 位 置 。 由 于 


因此 数据 区 的 第 一 个 有 效 簇 号 是 >， 而 不 是 0 或 


经 过 对 FAT12 文 件 系统 的 综合 学 习 后 ， 我 们 现在 已 经 掌握 了 足够 的 知识 来 实现 Loader 程 序 的 加 载 
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BS_VolLab db 'boot loader' 
BS_FileSysType db 'FAT12 


这 段 程序 中 的 代码 BaseofLoader equ 0x1000 和 OffsetOfLoader equ 0x00 组 合成 了 Loader 
程序 的 起 始 物理 地 址 , 这 个 组 合 必须 经 过 实 模式 的 地 址 变换 公式 才能 生成 物理 地 址 , 即 BaseofLoader 
<< 4 + OffsetOfLoader = 0x10000。 

代码 RootDirSectors equ 14 定 义 了 根 目 录 占 用 的 鹿 区 数 ， 这 个 数值 是 根据 FAT12 文 件 系统 提 
供 的 信息 经 过 计算 而 得 ， 即 (BPB_RootEntcnt * 32 + BPB_BytesPerSec - 1) / BPB_Bytes 
PerSec. En (224X32 4 S12 1) /S51L2. = 14o 

等 价 语句 SectorNumOfRootDirStart equ 19 定 义 了 根 日 录 的 起 始 扇 区号， 这 个 数值 也 是 通过 
计算 而 得 ， 即 保留 扇 区 数 + FAT 表 扁 区 数 * FAT 表 份 数 = 1 + 9 * 2 = 19， 因 为 扇 区 编号 的 计数 值 
从 0 开始 ， 故 根 目 录 的 起 始 忆 区 号 为 19。 
程序 SectorNumOfFAT1Start equ 1 代表 了 FAT1 表 的 起 始 户 区 号 ， 在 FAT1 表 前 面 只 有 一 个 保留 
扇 区 (引导 扇 区 )， 而 且 它 的 扇 区 编号 是 0， 那 么 FAT1 表 的 起 始 扇 区 号 理应 为 1。 

汇编 代码 SectorBalance equ 17 用 于 平衡 文件 (或 者 目录 ) 的 起 始 复 号 与 数据 区 起 始 复 号 的 
差 值 。 更 通俗 点 说 ， 因 为 数据 区 对 应 的 有 效能 号 是 2 ( FAT[2] )， 为 了 正确 计算 出 FAT 表 项 对 应 的 数据 
区 起 始 扇 区 号 ， 则 必须 将 FAT 表 项 值 减 2 ， 或 者 将 数据 区 的 起 始 复 号 / 扇 区 号 减 2 ( 仅 在 每 篮 由 一 个 记 
区 组 成 时 可 用 )。 本 程序 暂时 采用 一 种 更 取 巧 的 方法 是 ， 将 根 目 录 起 始 扇 区 号 减 2 (19-2=17 )， 进 而 
间接 把 数据 区 的 起 始 扇 区 号 〈 数 据 区 起 始 扇 区 号 = 根 目 录 起 始 扇 区 号 + 根 目录 所 占 记 区 数 ) 减 2。 

准备 好 FAT12 文 件 系统 引导 扇 区 数据 后 ， 还 需要 为 引导 程序 准备 软盘 读 取 功能 。 代 码 清单 3-6 是 软 
盘 读 取 功 能 的 程序 实现 。 


代码 清单 3-6 ”第 3 章 \ 程 序 \ 程 序 3-2\boot.asm 


;======= read one sector from floppy 
Func_ReadOneSector: 


push bp 

mov bp, sp 

sub esp, 2 

mov byte [bp - 2]， Eel 

push bx 

mov bl, [BPB_SecPerTrk] 

div ST 

inc ah 

mov El; ah 

mov dh, al 

shr a 1 

mov Ch al 

and dh, 1 

pop bx 

mov dl, [BS_DrvNum] 
Label_Go_On Reading: 

mov ah, 2 

mov al, byte [bp - 2] 

int 13h 


jc Label_Go_On Reading 
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add esp, 2 
pop bp 
ret 


代码 中 的 Func_Readonesector 模 块 负责 实现 软盘 读 取 功 能 ， 它 借助 BIOS 中 断 服务 程序 INT 13h 
的 主 功能 号 AH=02h 实 现 软盘 扇 区 的 读 取 操作 ， 该 中 断 服 务 程序 的 各 寄存 器 参数 说 明 如 下 。 

INT 13h，AH=02h 功能 : 读 取 磁 盘 扇 区 。 
口 AL= 读 入 的 扇 区 数 ( 必须 非 0 ); 
口 CH= 人 磁道 号 ( 柱 面 号 ) 的 低 8 位 ; 
口 CL= 刷 区 号 1~63 (bit 0~5 )， 磁 道 号 ( 柱 面 号 ) 的 高 2 位 ( bit 6~7, 只 对 硬盘 有 效 ); 
口 DH= 磁 头号 ; 
口 DL= 驱 动 器 号 ( 如 果 操 作 的 是 硬盘 驱动 器 ，bit 7 必须 被 置 位 ); 
口 ES:BX=> 数 据 缓冲 区 。 

从 代码 清单 3-6 可 知 ， 模 块 Func_ReaadoneSsector 仅 仅 是 对 BIOS 中 断 服 务 程序 的 再 次 封装 ， 以 简 
化 读 取 磁 盘 扇 区 的 操作 过 程 ， 进 而 在 调用 Func_Readonesector 模 块 时 ， 只 需 传递 下 列 参数 到 对 应 的 
寄存 器 中 ， 即 可 实现 磁盘 扇 区 的 读 取 操作 。 模 块 Func_ReadoneSsector 详 细 参 数 说 明 如 下 。 

模块 Func_ReadoneSector 功 能 : 读 取 磁盘 扇 区 。 
口 AX= 待 读 取 的 磁盘 起 始 扇 区 号 ; 
口 CL= 读 入 的 扇 区 数量 ; 
口 ES:BX=> 目 标 缓冲 区 起 始 地 址 。 
因为 Func_ReadoneSector 模 块 传人 的 磁盘 肩 区 号 是 LBA (Logical Block Address， 逻 辑 块 寻 址 ) 
格式 的 ， 而 INT 13h，AH = 02h 中 断 服务 程序 只 能 受理 CHS (Cylinder/Head/Sector， 柱 面 /磁头 / 扇 区 ) 
格式 的 磁盘 扇 区 号 ， 那 么 必须 将 LBA 格 式 转换 为 CHS 格 式 ， 通 过 公式 (3-1) 可 将 LBA 格 式 转换 为 CHS 格 
式 。 


柱 面 号 = Q>>1 
商 Q 0 人 


余数 R 一 起 始 局 区 号 =R+1 


模块 Func_Readonesector 在 读 取 软 盘 之 前 ， 会 先 保存 栈 帧 寄存 器 和 栈 寄存 器 的 数值 ， 从 栈 中 
开辟 两 个 字 节 的 存储 空间 〈 将 栈 指 针 向 下 移动 两 个 字 节 )， 由 于 此 时 代码 pp - 2 与 BSP 寄存 顺 均 指向 
同一 内 存 地 址 ， 所 以 CL 寄 存 器 的 值 就 保存 在 刚 开 尽 的 栈 空间 里 。 而 后 ， 使 用 AX 寄 存 器 〈 待 读 取 的 磁 
盘 起 始 扇 区 号 ) 除 以 BL 寄 存 器 〈 每 磁道 鹿 区 数 )， 计 算出 目标 磁道 号 ( 商 : AL 寄存 器 ) 和 目标 磁道 内 
的 起 始 扇 区 号 〈 余 数 : AH 寄存 器 )， 考 虑 到 磁道 内 的 起 始 鹿 区 号 从 1 开始 计数 ， 故 此 将 余数 值 加 1， 即 
inc ah。 紧 接着 ,再 按照 公式 (3-1) 计 算出 磁道 号 (也 叫 柱 面 号 ) 与 磁头 号 ， 将 计算 结果 保存 在 对 应 
寄存 器 内 。 最 后 ， 执 行 INT 13h 中 断 服务 程序 从 软盘 而 区 读 取 数 据 到 内 存 中 ， 当 数据 读 取 成 功 (CEF 标 
志 位 被 复位 ) 后 恢复 调用 现场 。 

有 了 软盘 而 区 读 取 功 能 , 便 可 在 其 基础 上 实现 文件 系统 访问 功能 。 代 码 清 单 3-7 则 是 在 其 基础 上 实 
现 的 目标 文件 搜索 功能 。 


LBA 扁 区 号 二 每 磁道 扁 区 数 
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代码 清单 3-7 第 3 章 \ 程 序 \ 程 序 3-2\boot.asm 


二 全 二 全 二 三 search loader.bin 


mov word [SectorNo], SectorNumOfRootDirStart 
Lable_Search_ In Root_Dir_ Begin: 

cmp word [RootDirSizeForLoop], 0 

爱 Label_No_LoaderBin 

dec word [RootDirSizeForLoop] 

mov ax, 00h 

movV es, ax 

mov Boe 8000h 

mov = 人 [SectorNo] 

mov ol 于 

call Func_ReadOneSector 

moV Ss LoaderFileName 

moOV ls 8000h 

ld 

mov dx, 10h 


Label_Search_ For_LoaderBin: 


cmp Ux, 0 

多 Label_Goto_Next_Sector_In Root_Dir 
dec dx 

mov Sy 中 小 


Label_Cmp_FileName: 


cmp we 0 

外 汤 Label_FileName_Found 
dec [ep 

lodsb 

cmp al, byte [es:di] 
jz Label_Go_On 

jmp Label_Different 


Label_Go_On: 


inc di 
jmp Label_Cmp_FileName 


Label_Different: 


and di, 0ffe0h 

add di, 20h 

ImOV si, LoaderFileName 

jmp Label_Search_ For_LoaderBin 


Label_Goto_Next_Sector_In Root_Dir: 


add word [SectorNo], 1 
jmp Lable_Search_In Root_Dir_ Begin 
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通过 这 段 代码 能 够 从 根 目 录 中 搜索 出 引导 加 载 程序 ( 文件 名 为 loader.bin )。 在 程序 执行 初期 ， 程 
天 区 号 ， 并 依据 根 目录 占用 磁盘 而 区 数 来 确定 需要 搜索 的 鹿 区 数 ， 
冲 区 中 的 每 个 目录 项 ， 寻 找 与 目标 文件 名 字 


序 会 先 保存 根 目录 的 起 始 


录 中 读 和 人 一 个 扇 区 的 数据 到 缓冲 区 ; 接 下 来 ， 遍 历 读 人 组 
符 串 ( "LOADER BIN" ,0 ) 相 匹配 的 目录 项 ， 其 中 DX 寄 存 器 记录 着 每 个 扇 区 可 容纳 的 目录 项 个 数 (512 
/32 = 16 = 0x10 )，CX 寄 存 器 记录 着 目录 项 的 文件 名 长 度 (文件 名 长 度 为 11B， 包 括 文件 名 和 扩展 名 ， 


但 不 包含 分 隔 符 “.”) 在 比 对 每 个 目录 项 文件 名 的 过 程 中 ,使 用 


向 与 DF 标志 位 有 关 ， 因 此 在 使 用 此 命令 时 需 用 CLD 指 令 清 DF 标 志 位 。 


并 从 根 目 


以 下 是 Intel 官 方 白皮书 对 LODSB/LODSW/LODSD/LODSQ 指 令 的 概括 描述 。 


了 汇编 指令 LoDSB， 该 命令 的 加 载 方 


口 该 命令 可 从 DS:(RIE)SI 寄 存 器 指定 的 内 存 地 址 中 读 取 数据 到 AL/AX/EAX/RAX 寄 存 器 。 


口 当 数 据 载 人 到 AL/AX/EAX/RAX 寄 存 器 后 ，(RIE)SI 寄 存 器 将 会 依据 RI1EFLAGS 标 志 寄 存 器 的 DF 


标志 位 自动 增加 或 减少 载 人 的 数据 长 度 ( 1/2/4/8 字 节 )。 当 DF=0 时 ，(R|E)SI 寄 存 器 将 会 自动 增 
加 ; 反之 ，(CRIE)SI 寄 存 器 将 会 自动 减少 。 
一 旦 发 现 完全 匹配 的 字符 串 ， 则 跳 转 到 Lapbel_FileName_Found 处 执行 ; 如 果 没 有 找到 ， 那 


么 就 执行 其 后 的 Label_No_LoadqerBin 模 块 ， 进 而 在 


不 存在 。 


屏幕 上 显示 提示 信息 ,通知 


j 户 引导 加 载 程 户 


特别 注意 ， 因 为 FAT12 文 件 系统 的 文件 名 是 不 区 分 大 小 写字 母 的 ， 即 使 将 小 写字 母 命名 的 文件 复 
制 到 FAT12 文 件 系统 内 ， 文 件 系 统 也 会 为 其 创建 大 写字 母 的 文件 名 和 目录 项 。 而 小 写字 母 文件 名 只 作 


为 其 显示 名 ， 真正 的 数据 内 容错 保存 在 大 写字 母 对 应 的 


字符 串 。 


代码 清单 3-8 是 Label_No_LoaderBin 模 块 的 处 理 程序 ， 它 的 作 


时 ， 显 示 提 示 信 


自 


/oO 


代码 清单 3-8 ”第 3 章 \ 程 序 \ 程 序 3-2\boot.asm 


人 


display on screen : 


Label_No_LoaderBin: 


IIOV 


push 
IOV 
IOV 
pop 
IOV 
int 
jmp 


这 段 代 码 借助 BIOS 中 断 处 理 程序 INT 10h , 将 字符 串 ] 


axXsy 
bx, 
(eb 


Ss 
这 次 
bp, 
10n 
$ 


NoLoaderMessage 


ERROR:No LOADER Found 


ERROR : NO LOADI 


行 第 0 列 上 。 图 3-6 是 Label_No_LoaderBin 模 块 的 显示 效果 。 


ER Found 显 示 到 


目录 项 。 所 以 这 里 应 该 搜索 大 写字 母 的 文件 名 


j 是 在 搜索 不 到 loaderbin 程 序 
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Bochs x86-64 emulaton http://bochs.sourcefor 
U: 


IPS: 25.759M 
图 3-6 ”Boot 错误 效果 图 
其 实 , 模块 Label_No_LoaderBin 设 置 的 字符 属性 (位 于 BL 寄存 器 内 ) 是 字符 闪烁 、 黑 背景 


高 亮 、 红 色 字 体 , 但 由 于 图 3-6 是 屏幕 截图 ， 无 法 表现 出 闪烁 效果 。 更 多 执行 细 节 还 请 读者 从 虚拟 机 
观察 。 


二 


当 搜 索 到 loaderbin 程 序 后 ， 便 可 根据 FAT 表 项 提供 的 篮 号 顺序 依次 加 载 鹿 区 数据 到 内 存 中 ， 这 个 


加 载 过 程 会 ee 作 。 代 码 清单 3-9 是 FAT 表 项 的 解析 代码 。 
代码 清单 3-9 ”第 3 章 \ 程 序 \ 程 序 3-2\boot.asm 


二 Set EAT Entry 
Func_GetFATEnNntrY: 


push es 


push bx 

push ax 

mov ax, 00 

moV es, ax 

pop ax 

mov byte [0dd], 0 
mov D3 3 

mul bx 

mov Fe 及 

QiV bx 

cmp Ql 0 

jz Label_Even 

mov byte [0gdd], 1 


Label_Even: 


xor dx, dx 
mov I [BPB_BytesPerSec] 
div 志波 
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push dx 
TOV bx, 8000h 
add dX SectorNumOfFAT1Start 
mov cs 2 
call Func_ReadoneSector 
pop dx 
add bx, dx 
mov ax, [es:bx] 
cmp byte [odd], 业 
jnz Label_Even 2 
shr 人 4 

Label_Even 2: 
and ax, Offfh 
pop bx 
pop es 
ret 


此 前 已 经 提 及 FAT12 文 件 系统 的 每 个 FAT 表 项 占用 12 bit， 即 每 三 个 字 节 存储 两 个 FAT 表 项 ， 由 此 


看 来 ，FAT 表 项 的 存储 位 置 是 具有 奇偶 性 的 。 使 用 Func_GetFATEntry 模 块 可 根据 当前 FAT 表 项 索引 


出 下 一 个 FAT 表 项 ， 该 模块 的 寄存 器 参数 说 明 如 下 。 
模块 Func_GetFATEntry 功能 : 


口 AH=FAT 表 项 号 (输入 参数 /输出 参数 )。 


这 段 程序 首先 会 保存 FAT 表 项 号 ， 并 将 奇偶 标志 变量 〈 变 量 [oaa 


1.5B,， 所 以 将 FAT 表 项 乘 以 3 除 以 2 (扩大 1.5 倍 ) 来 判读 余数 的 奇偶 全 
偶数 为 0 )， 再 将 计算 结果 除 以 每 扇 区 字 节 数 ， 


扇 区 


而 值 为 FAT 表 项 的 


根据 当前 FAT 表 项 索引 出 下 一 个 FAT 表 项 。 


) 置 0。 因 为 每 个 FAT 表 项 占 


是 为 了 解决 FAT 表 项 横 跨 两 个 扇 区 的 问题 。 最 后 ， 根 据 奇 偶 标 
即 奇数 项 向 右 移动 4 位 。 有 能 力 的 读者 可 自行 将 FAT12 文 件 系统 替换 为 FAT16 文 件 系统 ， 这 样 可 以 简 
化 FAT 表 项 的 索引 过 程 。 


在 完成 Func_ReadOoneSector 和 Func_GetFATI 


并 保存 在 [roadal 中 (奇数 为 1， 


月 移 扇 区 号 ， 余 数值 为 FAT 表 项 在 
1 的 偏 移 位 置 。 接 着 ,通过 Func_ReadoneSector 模 块 连续 读 人 两 个 鹿 区 的 数据 ， 此 举 的 目的 


志 变 量 进一步 处 理 奇偶 项 错位 问题 ， 


Entry 模 块 后 ， 就 可 借助 这 两 个 模块 把 loader.bin 


文件 内 的 数据 从 软盘 扇 区 读 取 到 指定 地 址 中 。 代 码 清单 3-10 实 现 了 从 FAT12 文 件 系 统 中 加 载 loader.bin 
文件 到 内 存 的 过 程 。 


代码 清单 3-10 ”第 3 章 \ 程 序 \ 程 序 3-2\boot.asm 


人 


found loader.bin name in root director struct 


Label_FileName_Found: 


mov 
and 
add 
IOV 
push 
add 
add 


ax, RootDirSectors 
di, OffeOh 

Qi 01ah 

人 word [es:di] 
cx 

CT ax 


cx, SectorBalance 
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mov ax, BaseOfLoader 
moV es, ax 

mov Px; OffsetOfLoader 
moV ax, [ep 


Label_Go_On Loading_File: 
push ax 


push bx 

mov ah, 0eh 

mov Ls 

mov ll 0fh 

int 10h 

pop bx 

pop ax 

mov Gs 1 

call Func_ReadOneSector 

pop ax 

call Func_GetFATENntry 

cmp a 0fffn 

jz Label_File_Loaded 

push ax 

moV [ob RootDirSectors 
add ax, dx 

add ax, SectorBalance 
add bx, [BPB_BytesPerSec] 
jmp Label_Go_On Loading_File 


Label_File Loaded: 


jmp $ 

在 Label_FileName_Found 模 块 中 ， 程 序 会 先 取 得 目录 项 DIR_FstClus 字 段 的 数值 ， 并 通过 配置 
ES 寄存 姻 和 BX 寄存 带 来 指定 loader.bin 程 序 在 内 存 中 的 起 始 地 址 ， 再 根据 loader.bin 程 序 的 起 始 徐 号 计 
算出 其 对 应 的 扇 区 号 。 为 了 增强 人 机 交互 效果 ， 此 处 还 使 用 BIOS 中 断 服 务 程序 INT 10h 在 屏幕 上 显示 
一 个 字符 ' .'。 接 着 ， 每 读 人 一 个 扇 区 的 数据 就 通过 Func_GetFaATEntry 模 块 取 得 下 一 个 FAT 表 项 ， 
并 跳 转 至 Label_GCo_On_Loading_File 处 继续 读 入 下 一 个 艇 的 数据 ， 如 此 往复 ， 直 至 Func_ 
GetFATEntry 模 块 返回 的 FAT 表 项 值 是 0ff fh 为 止 。 当 loader.bin 文 件 的 数据 全 部 读 取 到 内 存 后 ， 跳 转 
至 Label_File_Loaded 处 准备 执行 loader.bin 程 序 。 

这 段 代码 使 用 了 BIOS 中 断 服 务 程序 INT 10h 的 主 功能 号 AH=0Eh 在 屏幕 上 显示 一 个 字符 , 详细 寄存 
器 参数 说 明 如 下 。 

INT 10h，AH=0Eh 功能 : 在 屏幕 上 显示 一 个 字符 。 
口 AL= 待 显示 字符 ; 
口 BL= 前 景色 。 

看 到 这 里 ， 想 必 读 者 已 经 知道 图 3-1 在 字符 串 start Boot 后 面 显示 的 5 个 字符 ' . ' 的 意义 了 ， 即 读 
人 5 个 肩 区 的 数据 ， 或 者 loaderbin 程 序 占 用 了 将 近 5 个 扇 区 的 磁盘 空间 。 

代码 清单 3-11 和 代码 清单 3-12 是 boot.asm 文 件 的 剩余 代码 , 这 部 分 代码 定义 了 引导 程序 在 运行 时 使 
用 的 临时 变量 和 日 志 信息 字符 串 。 
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代码 清单 3-11 第 3 章 \ 程 序 \ 程 序 3-2\boot.asm 


四 安居 tmp variable 


RootDirSizeForLoop dw RootDirSectors 
SectorNo dw 0 
Odqd db 0 


这 三 个 变量 用 于 保存 程序 运行 时 的 临时 数据 ， 上 文 已 经 讲解 了 它们 的 使 用 过 程 ， 此 处 不 再 过 多 
讲述 。 
代码 清单 3-12 ”第 3 章 \ 程 序 \ 程 序 3-2\boot.asm 


二 Qisplay messages 


StartBootMessage: db "Start Bodt” 
NoLoaderMessage: db "ERROR:No LOADER Found" 
LoaderFileName: db "LOADER BIN",0 


上 述 字符 串 均 是 屏幕 上 显示 的 日 志 信息 。 值 得 说 明 的 是 ，NASM 编 译 器 中 的 单 引 号 与 双 引 号 作用 
相同 ， 并 非 如 标准 C 语 言 中 规定 的 : 双 引 号 会 在 字符 串 结尾 处 自动 添加 字符 '\0' ， 而 在 NASM 编 译 器 
中 必须 自行 添加 。 不 过 ， 本 程序 使 用 的 BIOS 中 断 服 务 程序 必须 明确 提供 显示 的 字符 串 的 长 度 ， 不 需要 
判读 字符 串 结 尾 处 的 字符 '\01'。 
目前 ， 我 们 还 未 进入 Loader 引 导 加 载 程序 的 开发 环节 ， 所 以 在 Label_File_Loadeq 处 使 用 代码 
jmp $， 让 程序 死 循环 在 此 处 。 


3.1.6 ”从 Boot 跳 转 到 Loader 程序 


接 下 来 ， 将 实现 Boot 引 导 程 序 的 最 后 一 步 ， 那 就 是 跳 转 至 Loader 引 导 加 载 程序 处 ， 向 其 移交 处 理 
器 的 控制 权 。 代 码 清单 3-13 完 成 了 向 Loader 引 导 加 载 程序 移交 执行 权 的 工作 ， 即 跳 转 至 物理 地 址 
0x10000 处 执行 1oadqer . bin 程序。 


代码 清单 3-13 ”第 3 章 \ 程 序 \ 程 序 3-3\boot.asm 


Label_File_Loaded: 


jmp BaseOfLoader:OffsetOfLoader 

这 行 jmp 代 码 与 早 前 的 指令 略 有 不 同 。 此 前 的 JMP 汇 编 指 令 属 于 段 内 地 址 跳 转 ， 而 此 处 的 JMP 指 
令 属 于 段 间 地 址 跳 转 ， 它 可 以 从 一 个 段 跳 转 至 另 一 个 段 地 址 中 。 因 此 ， 这 个 长 跳 转 指令 JMP 必 须 在 操 
作 地 址 中 明确 指定 跳 转 的 目标 段 和 目标 段 内 偏 移 地 址 。 

这 个 跳 转 指令 执行 结束 后 ， 目 标 段 会 赋值 到 CS 代码 段 寄 存 器 中 。 以 此 段 程序 为 例 ， 当 JMP 指 令 执 
行 后 ，CS 寄 存 器 的 值 就 是 BaseofLoader， 即 0x1000。 在 实 模式 下 ， 代 码 段 寄 存 需 的 值 必须 左 移 4 位 
后 才 转 换 成 段 基地 址 ， 即 0x1000 << 4 = 0x10000。 

至 此 ，Boot 引 导 程 序 的 代码 已 经 全 部 实现 。 接 下 来 ， 编 写 一 个 简单 的 Loader 引 导 加 载 程序 来 检测 
这 个 跳 转 过 程 ， 请 看 代码 清单 3-14。 
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代码 清单 3-14 ”第 3 章 \ 程 序 \ 程 序 3-3\loader.asm 


org 10000h 


moV ax, cs 
mov ds, ax 
moV es, ax 
mov 可 下 0x00 
moV ss, ax 
mov sp, 0x7c00 


a display on screen : Start Loader...... 


mov 区 L301 

mov Bx; 000fh 

mov Gx: 0200h ;row 2 
mov Lap. 2 

push ax 

mov ax, ds 

ImOV es, ax 

pop ax 

mov bp, StartLoaderMessage 
int 10h 

jmp $ 


;======= display messages 


StartLoaderMessage: ap "Start Loader" 

这 上段 测试 代码 与 程序 3-1 中 的 boot.asm 程 序 在 功能 上 极为 相似 , 即 显 示 一 行 日 志 信息 , 以 证 明 Loader 
引导 加 载 程序 正在 被 处 理 器 执行 。 
# 译 loaderasm 程 序 使 用 的 命令 与 编译 bootasm 程 序 相 似 ， 区 别 在 于 源 文件 名 和 目标 文件 名 不 同 而 
已 。 以 下 是 loaderasm 程 序 的 完整 编译 命令 : 

nasm loader.asm -oO loader.bin 

当 loaderasm 程 序 编 译 结 束 后 ， 必 须 将 生成 的 二 进 制程 序 loaderbin 复 制 到 虚拟 软盘 镜像 文件 
boot.img 中 。 此 处 的 复制 过 程 与 boot.bin 程 序 的 写 入 过 程 采 用 了 完全 不 同方 法 ， 当 boot.bin 程 序 写 入 
到 boot.img 虚 拟 软 盘 镜 像 文 件 后 ，boot.img 虚 拟 软 盘 已 经 拥有 了 FAT12 文 件 系 统 ， 那 么 应 该 借助 挂 载 
命令 mount 和 复制 命令 cp , 把 引导 加 载 程序 1oader.bin 复 制 到 文件 系统 中 。 整 个 复制 过 程 需要 执行 以 
下 命令 : 


mount ../bochs-2.6.8/boot.img /media/ -t vfat -o loop 
cp loader.bin /media/ 

sync 

umount /media/ 


在 这 组 命令 中 ， 挂 载 命 令 mount 的 参数 . . /bochs-2.6.8/boot.img 指 定 了 待 挂 载 文件 的 路 径 
名 ， 参 数 /media/ 指 定 挂 载 日 录 ， 参 数 -t vfat 指 定 磁盘 的 文件 系统 类 型 ， 参 数 -o 1oop 负 责 把 一 
个 文件 描述 成 磁盘 分 区 。 读 者 可 以 根据 个 人 的 实际 情况 ,适当 调整 虚拟 软盘 镜像 文件 路 径 和 挂 载 卓 


a 


A 
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录 路 径 ， 当 虚拟 软盘 镜像 文件 挂 载 成 功 后 便 可 对 其 进行 访问 了 。 复 制 命令 cp 和 磁盘 强制 同步 命令 
sync 属 于 党 用 命令 ， 这 里 就 不 再 歼 述 。umount 命 令 用 于 将 已 挂 载 的 设备 或 文件 卸载 下 来 ， 它 与 挂 载 


命令 mount 的 作用 相反 ， 此 处 的 参数 /medqia/ 指 明了 挂 载 目录 。 


有 些 读者 可 能 会 问 ， 为 什么 虚拟 软盘 不 用 格式 化 成 FAT12 文 件 系统 ， 就 可 以 直接 挂 载 使 用 呢 ? 因 


为 使 用 aa 命令 将 引导 程序 bootbin 强 行 写 入 到 引导 扇 区 的 动作 与 磁盘 的 格式 化 作用 相似 ， 也 就 相当 于 
将 其 格式 化 成 FAT12 文 件 系统 。 其 实 格式 化 文件 系统 ， 就 是 把 文件 系统 的 所 有 结构 数据 写 和 人 到 磁盘 局 


区 的 过 程 。 
解释 了 这 么 多 内 容 ， 现 在 来 欣赏 一 下 引导 加 载 程序 的 运行 效果 ， 参 见 图 3-7。 


Bochs x86-64 emulaton http://bochs.sourcefo 
USER 


ResetsuspEnoPOKer| 


IPS: 19,460M lt CI | | | | | | 


图 3-7 ”Boot 跳 转 至 Loader 


| lcars sc 


\ 


Loader 引 导 加 载 程序 在 屏幕 的 第 三 行 显示 一 条 字符 串 Start Loader， 随 后 进入 死 循环 状态 。 万 


事 开头 难 ， 相 信 经 过 Boot 引 导 程 序 的 学 习 后 ，Loader 引 导 加 载 程 序 将 不 再 令 人 胆 尾 。 


3.2 Loader 引导 加 载 程序 


与 Boot 引 导 程 序 挥手 作 别 后 ， 此 刻 的 处 理 器 控制 权 已 经 移交 给 Loader 引 导 加 载 程序 。Loader 引 导 
加 载 程序 任 重 而 道 远 ， 它 必须 在 内 核 程序 执行 前 ， 为 其 准备 好 一 切 所 需 数据 ， 比 如 硬件 检测 信息 、 处 


理 器 模式 切换 、 向 内 核 传递 参数 等 。 


由 于 Loader 引 导 加 载 程序 的 工作 纷繁 而 又 复杂 ， 为 了 使 读者 能 够 快速 对 操作 系统 有 个 整体 认识 ， 


本 节 将 主要 讲解 Loader 引 导 加 载 程 序 的 主线 工作 ， 其 他 分 支 工 作 将 会 在 高 级 篇 中 予以 详细 讲解 。 有 能 


力 的 读者 也 可 以 结合 第 6 章 和 第 7 章 的 知识 同步 学 习 。 
新 的 征程 马上 开始 ，Loader 引 导 加 载 程序 ，Ready Go! 


3.2.1 Loader 原理 


Loader 引 导 加 载 程序 负责 检测 硬件 信息 、 处 理 需 模式 切换 、 向 内 核 传递 数据 三 部 分 工 


， 这 些 工 


TT 


作为 内 核 的 初始 化 提供 信息 及 功能 支持 ， 以 便 内 核 在 完成 初始 化 工作 后 能 够 正常 运行 。 下 


面 将 对 这 三 


邮 
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部 分 内 容 逐 一 讲解 。 

@ 检测 硬件 信息 

Loader 引 导 加 载 程序 需要 检测 的 硬件 信息 很 多 ,主要 是 通过 BIOS 中 断 服务 程序 来 获取 和 检测 硬件 
信息 。 由 于 BIOS 在 上 电 自 检 出 的 大 部 分 信息 只 能 在 实 模式 下 获取 ， 而 且 内 核 运行 于 非 实 模式 下 ,那么 
就 必须 在 进入 内 核 程 序 前 将 这 些 信 息 检 测 出 来 ， 再 作为 参数 提供 给 内 核 程 序 使 用 。 

在 这 些 硬 件 信 息 中 ， 最 重要 的 莫 过 于 物理 地 址 空间 信息 ， 只 有 正确 解析 出 物理 地 址 空间 信息 ， 才 
能 知道 ROM、RAM、 设 备 寄存 器 空间 和 内 存 空洞 等 资源 的 物理 地 址 范围 ， 进而 将 其 交 给 内 存 管理 音 
元 模块 加 以 维护 。 还 有 后 续 章 节 中 会 讲解 的 VBE 功 能 ， 通 过 VBE 功 能 可 以 检测 出 显示 器 支持 的 分 辩 
率 、 显 示 模 式 、 刷 新 率 以 及 显存 物理 地 址 等 信息 ， 有 了 这 些 信息 才能 配置 出 合理 的 显示 模式 。 

@ 处 理 器 模式 切换 

从 起 初 BIOS 运 行 的 实 模式 (real mode )， 到 32 位 操作 系统 使 用 的 保护 模式 (protect mode )， 再 到 
64 位 操作 系统 使 用 的 IA-32e 模 式 ( long i 长 模式 )，Loader 引 导 加 载 程序 必须 历经 这 三 个 模式 ， 
才能 使 处 理 器 运行 于 64 位 的 IA-32e 模 式 。 在 各 个 模式 的 切换 过 程 中 ，Loader 引 导 加 载 程 序 必须 手动 创 
建 各 运行 模式 的 临时 数据 ， 并 按照 标准 流程 执行 模式 间 的 跳 转 。 其 中 有 配置 系统 临时 页 表 的 工作 ， 即 
既 要 根据 各 个 阶段 的 页 表 特 性 设置 临时 页 表 项 ， 还 要 保证 页 表 覆 善 的 地 址 空间 满足 程序 使 用 要 求 。 临 
时 段 结构 亦 是 如 此 。 

@ 向 内 核 传递 数据 

Loader 引 导 加 载 程序 可 向 内 核 程 序 传 递 两 类 数据 ， 一 类 是 控制 信息 ， 另 一 类 是 硬件 数据 信息 。 这 
些 数据 一 方面 控制 内 核 程序 的 执行 流程 ， 另 一 方面 为 内 核 程序 的 初始 化 提供 数据 信息 支持 。 

口 控制 信息 一 般 用 于 控制 内 核 执 行 流程 或 限制 内 核 的 某 些 功能 。 这 些 数 据 (参数 ) 是 与 内 核 程序 
早已 商定 的 协议 ， 属 于 纯 软 件 控 制 逻 辑 ， 如 启动 模式 (字符 界面 或 图 形 界面 )、 启 动 方式 (网 
络 或 本 地 )、 终 端 重 定向 ( 串口 或 显示 器 等 ) 等 信息 。 

口 硬件 数据 信息 通 党 是 指 Loader 引 导 加 载 程序 检测 出 的 硬件 数据 信息 。Loader 引 导 加 载 程序 将 
这 些 数据 信息 多 半 都 保存 在 固定 的 内 存 地 址 中 , 并 将 数据 起 始 内 存 地 址 和 数据 长 度 作 为 参数 
传递 给 内 核 , 以 供 内 核 程 序 在 初始 化 时 分 析 ` 配置 和 使 用 , 典型 的 数据 信息 有 内 存 信息 、VBE 
窒息 等 。 

考虑 到 Loader 引 导 加 载 程序 的 任务 比较 多 ， 因 此 本 节 将 针对 引导 加 载 程序 的 主线 任务 予以 讲解 ， 

即 加 载 内 核 、 各 个 模式 间 的 切换 。 关 于 这 部 分 的 原理 级 知识 ， 请 读者 参考 第 6 章 关 于 人 处理 器 体系 结构 
的 内 容 。 关 于 Loader 引 导 加 载 程 序 的 支线 任务 ( 显示 模式 、 内 存 空间 结构 等 )， 将 推迟 到 第 7 章 中 进行 
原理 级 讲解 和 功能 扩充 。 


3.2.2” 写 一 个 Loader 程序 


由 于 程序 3-4 中 的 loaderasm 文 件 过 长 ， 而 且 其 中 一 部 分 代码 与 Boot 引 导 程 序 重 复 ， 为 了 节省 篇 幅 
重复 的 内 容 将 不 再 予以 讲解 。 请 读者 参照 loader.asm 程 序 源码 阅读 本 节 内 容 ， 同 时 也 请 参照 程序 源码 并 
行 阅读 本 书 内 容 。 

代码 清单 3-15 是 Loader 引 导 加 载 程序 的 一 些 基础 数据 定义 和 头 文 件 引 用 ， 其 中 包含 了 内 核 程序 起 
始 地 址 、 临 时 内 存 空间 起 始 地 址 等 标识 符 定义 。 
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代码 清单 3-15 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


org 10000h 


jmp Label_Start 
sinclude "Ea Lr 
BaseOfKernelFile equ 0x00 
OffsetOfKernelFile equ 0x100000 
BaseTmpOfKernelAddr equ 0x00 
OffsetTmpOfKernelFile equ 0x7E00 
MemoryStructBufferAddr equ 0x7E00 


这 部 分 代码 包含 了 sinclude "fat12.inc"， 通过 关键 字 include 可 将 文件 fat12.inc 的 内 容 
包含 进 loader.asm 文 件 。 从 字面 意思 大 家 也 都 猜 得 出 来 ， 它 跟 C 语 言 引用 程序 头 文件 的 功能 相同 。 
fat12.inc 文 件 是 从 Boot 引 导 程 序 中 提取 出 的 FAT12 文 件 系 统 结构 ， 其 中 的 内 容 一 目 了 然 ， 此 处 不 再 
歼 述 。 

本 系统 的 内 核 程 序 起 始 地 址 位 于 物理 地 址 0x100000 (1MB ) 处 ， 因 为 1 MB 以 下 的 物理 地 址 并 不 
全 是 可 用 内 存 地 址 空间 ， 这 段 物理 地 址 被 划分 成 若干 个 子 空间 段 ， 它 们 可 以 是 内 存 空间 、 非 内 存 空 间 
以 及 地 址 空洞 。 随 着 内 核 体积 的 不 断 增 长 ， 未 来 的 内 核 程 序 很 可 能 会 超过 1 MB， 因 此 让 内 核 程 序 跳 过 
这 些 纷繁 复杂 的 内 存 空间 ， 从 平坦 的 1 MB 地 址 开始 ， 这 是 一 个 非常 不 错 的 选择 。 

内 存 地 址 0x7E00 是 内 核 程 序 的 临时 转 存 空间 ， 由 于 内 核 程 序 的 读 取 操 作 是 通过 BIOS 中 断 服务 程 
序 INT 13h 实 现 的 ，BIOS 在 实 模 式 下 只 支持 上 限 为 1 MB 的 物理 地 址 空间 寻 址 ， 所 以 必须 先 将 内 核 程 序 
读 和 人 到 临时 转 存 空间 , 然后 再 通过 特殊 方式 搬运 到 1 MB 以 上 的 内 存 空间 中 。 当 内 核 程 序 被 转 存 到 最 终 
内 存 空 间 后 ， 这 个 临时 转 存 空间 就 可 另 作 他 用 ， 此 处 将 其 改 为 内 存 结构 数据 的 存储 空间 ， 供 内 核 程序 
在 初始 化 时 使 用 。 本 节 将 主要 于 绕 上 述 内 容 逐 步 展开 代码 实现 。 

代码 清单 3-16 是 Loader 引 导 加 载 程序 的 入口 模块 ， 它 的 作用 是 在 屏幕 上 显示 一 条 日 志 信息 ， 这 条 
言 息 标 志 着 处 理 器 正在 执行 Loader 引 导 加 载 程序 。 


代码 清单 3-16 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


[SECTION .s16] 
[BITS 16] 


以 


外 


Label_Start: 


mov bp, StartLoaderMessage 
int 10h 


这 上段 程序 是 代码 清单 3-14 的 Loader 引 导 加 载 程序 实现 ， 此 处 追加 定义 了 一 个 名 为 .s16 的 段 ，BITS 
伪 指 令 可 以 通知 NASM 编 译 器 生成 的 代码 ， 将 运行 在 16 位 宽 的 处 理 器 上 或 者 运行 在 32 位 宽 的 处 理 器 
上 ， 语 法 是 'BITS 16' 或 'BITS 32'。 

当 NASM 编 译 器 处 于 16 位 宽 ( 'BITS 16' ) 状态 下 ， 使 用 32 位 宽 数据 指令 时 需要 在 指令 前 加 入 前 
缀 0x66， 使 用 32 位 宽 地 址 指令 时 需要 在 指令 前 加 入 前 缀 0x67。 而 在 32 位 宽 ('BITS 32' ) 状态 下 , 使 
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用 16 位 宽 指 令 也 需要 加 入 指令 前 级 。 伪 指令 'BITS 位 宽 ' 拥 有 一 种 等 效 的 书写 格式 ， 即 [BITS 位 宽 ] 。 
通常 情况 下 ， 实 模式 只 能 寻 址 1 MB 以 内 的 地 址 空间 。 为 了 突破 这 一 瓶 贷 ， 接 下 来 的 代码 将 开启 
1 MB 以 上 物理 地 址 寻 址 功能 ， 同 时 还 开启 了 实 模式 下 的 4 GB 寻 址 功能 。 详 细 程 序 如 代码 清单 3-17 所 示 。 


代码 清单 3-17 第 3 章 \ 程 序 \ 程 序 3-4\ loader.asm 


和 open address A20 
push ax 


in Ly 92h 

OE al, 00000010b 
out 02 al 

pop ax 

全 汪汪 

db 0x66 

各 忆 [GdtPtr] 

mov eax, GEO 

or eax, 1 

mov cr0, eax 

mov a SelectorData32 
mov fs, ax 

mov eax, cr0 

and al, 11111110b 
mov ohnld eax 

sti 


这 段 代 码 的 起 始 部 分 开启 地 址 A20 功 能 ， 此 项 功能 属于 历史 遗留 问题 。 最 初 的 处 理 器 只 有 20 根 地 
址 线 ， 这 使 得 处 理 器 只 能 寻 址 1MB 以 内 的 物理 地 址 空间 ， 如 果 超 过 1 MB 范围 的 寻 址 操作 ,也 只 有 低 20 
位 是 有 效 地 址 。 随 着 处 理 器 寻 址 能 力 的 不 断 增强 ，20 根 地 址 线 已 经 无 法 满足 今后 的 开发 需求 。 为 了 保 
证 硬件 平台 的 向 下 兼容 性 ,， 便 出 现 了 一 个 控制 开启 或 禁止 1 MB 以 上 地 址 空间 的 开关 。 当 时 的 8042 键 盘 
控制 器 上 恰好 有 空闲 的 端口 引 脚 (输出 端口 P2， 引 脚 P21 ) 从 而 使 用 此 引 脚 作为 功能 控制 开关 ， 即 A20 
功能 。 如 果 A20 引 脚 为 低 电 平 〈 数 值 0 )， 那 么 只 有 低 20 位 地 址 有 效 ， 其 他 位 均 为 0。 

在 机 器 上 电 时 ， 默 认 情 况 下 A20 地 址 线 是 被 禁用 的 ， 所 以 操作 系统 必须 采用 适当 的 方法 开启 它 。 
于 硬件 平台 的 兼容 设备 种 类 繁杂 ， 进 而 出 现 多 种 开启 A20 功 能 的 方法 。 
口 开启 A20 功 能 的 常用 方法 是 操作 键盘 控制 器 ， 由 于 键盘 控制 器 是 低速 设备 ， 以 至 于 功能 开启 速 
度 相对 较 慢 。 
口 A20 快 速 门 (Fast Gate A20 ), 它 使 用 LO 端口 0x92 来 处 理 A20 信 号 线 。 对 于 不 含 键盘 控制 器 的 操 
作 系 统 ， 就 只 能 使 用 0x92 端 口 来 控制 ， 但 是 该 端口 有 可 能 被 其 他 设备 使 用 。 
口 使 用 BIOS 中 断 服 务 程序 INT 15h 的 主 功能 号 AX=2401 可 开启 A20 地 址 线 ， 功 能 号 AX=2400 可 禁 
用 A20 地 址 线 ， 功 能 号 AX=2403 可 查询 A20 地 址 线 的 当前 状态 。 
口 还 有 一 种 方法 是 ， 通 过 读 0xee 端 口 来 开启 A20 信 号 线 ， 而 写 该 端口 则 会 禁止 A20 信 和 号 线 。 
本 系统 通过 访问 A20 快 速 门 来 开启 A20 功 能 ， 即 置 位 0x92 端 口 的 第 1 位 。 
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当 A20 功 能 


信息 ， 并 置 位 CR0 寄 存 器 的 第 0 位 来 天 


启 后 ， 紧 接着 使 用 指令 cLI 关 闭 外 部 中 断 ， 再 通过 指令 LGDT 加 载 保 护 模式 结构 数据 
F 启 保护 模式 。 当 进入 保护 模式 后 ， 为 FS 段 寄存 器 加 载 新 的 数据 


段 值 ， 一 旦 完成 数据 加 载 就 从 保护 模式 中 退出 ， 并 开启 外 部 中 断 。 整 个 动作 一 气 呵 成 ， 实 现 了 保护 模 
式 的 开启 和 关闭 。 看 似 多 此 一 举 的 代码 ， 其 目的 只 是 为 了 让 FS 段 寄存 器 可 以 在 实 模式 下 寻 址 能 力 超过 
1 MB， 也 就 是 传说 中 的 Big Real Mode 模 式 ， 详 细 的 原理 级 说 明 请 参见 第 7 章 。 通 过 此 番 操 作 后 ， 借 助 
， 就 可 将 内 核 程序 移动 到 1 MB 以 上 的 内 存 地 址 空间 中 。 


FS 段 寄存 器 的 特殊 寻 址 能 


我 们 可 以 将 代码 jmp $ 插 入 到 STI 汇 编 指 令 后 的 某 个 地 方 让 程序 停留 下 来 ， 在 Bochs 的 终端 中 按 下 
Ctrl + C 键 进入 DBG 调 试 命令 行 ， 输 入 命令 sreg 可 查看 当前 段 状态 信息 ， 大 致 内 容 如 下 : 

00014040193i[BIOS ] Booting from 0000:7c00 
^C00196624559i[ ] Ctrl-C detected in signal handler. 
Next at t=196624560 
(0) [0x0000000100ce] 1000:00ce (unk. ctxt): jmp .-3 (0x000100ce) ; e9fdff 
<bochs:2> sreg 
es:0x1000, dh=0x00009301, dl=0x0000ffff, valid=1 

Data segment, base=0x00010000, limit=0x0000ffff, Read/Write, Accessed 
cs:0x1000, dh=0x00009301, dl=0x0000ffff, valid=1 

Data segment, base=0x00010000, limit=0x0000ffff, Read/Write, Accessed 
ss:0x0000, dh=0x00009300, dl=0x0000ffff, valid=7 

Data segment, base=0x00000000, limit=0x0000ffff, Read/Write, Accessed 
ds:0x1000, dh=0x00009301, dl=0x0000ffff, valid=1 

Data segment, base=0x00010000, limit=0x0000ffff, Read/Write, Accessed 
fs:0x0010, dh=0x00cf9300, dl=0x0000ffff, valid=1 

Data segment, base=0x00000000, limit=0xffffffff, Read/Write, Accessed 
gs:0x0000, dh=0x00009300, dl=0x0000ffff, valid=1 

Data segment, base=0x00000000, limit=0x0000ffff, Read/Write, Accessed 
ldtr:0x0000, dh=0x00008200, dl=0x0000ffff, valid=1 
tr:0x0000, dh=0x000081b00, dl=0x0000ffff, valid=1 


gdtr:base=0x0000000000010040, 
idtr:base=0x0000000000000000, 


limit=0x17 
limit=0x3ff 


从 Bochs 虚 拟 机 的 调试 信息 中 可 知 ，FS 段 寄存 器 的 状态 信息 与 其 他 段 寄 存 器 略 有 不 同 ， 特 别 是 段 
基地 址 base=0x00000000 和 上 段 限 长 1imit=0xffffffff 两 值 ， 它 们 的 寻 址 能 力 已 经 从 20 位 (1MB ) 
扩展 到 32 位 (4 GB )。 

这 里 需要 注意 一 点 的 是 ， 在 物理 平台 下 ， 当 段 寄存 器 


话 ， 那 么 它 就 会 失去 特殊 
存 器 的 检测 条 件 ， 


旦 


能 力 ， 转 而 变 回 


有 这 种 特殊 能 力 后 ， 如 果 重 新 对 其 赋值 的 
原始 的 实 模 式 段 寄 存 絮 。 但 是 Bochs 虚 拟 机 貌似 放宽 了 对 寄 


即使 重新 向 FS 段 寄 存 器 赋值 ，FS 段 寄存 器 依然 拥有 特殊 能 


eh 


完成 上 述 准 备 工作 后 ， 接 下 来 的 任务 是 从 FAT12 文 件 系 统 中 搜索 出 内 核 程 序 文件 kernel.bin。 代 码 
清单 3-18 是 搜索 任务 的 代码 实现 片段 。 


代码 清单 3-18 


二 所 基 忆 基 


第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


search kernel.bin 


word 


[SectorNo], 


Lable_Search_ In Root_Dir_ Begin 


SectorNumOfRootDirStart 
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display on screen : 


Label_No_LoaderBin: 


mov bp, 
让 光世 i 
jmp $ 


NoLoaderMessage 


ERROR :NO KERNEL Found 


已 经 在 Boot 引 导 程 序 中 看 到 过 与 代码 清单 3-18 类 似 的 内 容 ， 只 不 过 此 刻 已 将 待 搜 索 的 文件 名 从 


loader.bin 改 为 kernel.bin。 


如 果 搜 索 到 内 核 程 序 文件 kernel.bin， 则 将 kernel.bin 文 件 内 的 数据 读 取 至 物理 内 存 中 ， 实 现代 码 如 


代码 清单 3-19 所 示 。 
代码 清单 3-19 


第 3 章 \ 程 序 \ 程 序 3-4\loaderasm 


found kernel.bin name in root director struct 


Label_FileName_Found: 


ImOV ax, 
and GL; 
add di, 
moV > 
push 蕊 汉 
add Lp 
add ep. 
moV eax, 
ImOV es, 
mov bx, 
ImOV ax, 


RootDirSectors 
OFFEOh 

01Ah 

word [es:qdi] 

ax 

SectorBalance 
BaseTmpOfKernelAddr 
eax 


OffsetTmpOfKernelFile 
已 文 


Label_Go_On Loading_File: 


mov 3 
call 
pop ax 


push eax 
push 在 其 

push edi 
push ds 

push esi 
mo CR 
mo ax, 
mov fs, 
mov edi, 
mo ax, 


1 


Func_ReadOneSector 


200n 
BaseOfKernelFile 
ax 

dword 


BaseTmpOfKernelAddr 


;BaseOfKernelFile 


;OffsetOfKernelFile 


[OffsetOfKernelFileCount] 


AA ws 
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IOV ds, ax 
mov esi, OffsetTmpOfKernelrile 


Label_Mov_Kernel: 


mov al, byte [ds:esi] 
mov byte [fs:edil], al 
inc esi 

inc edi 

loop Label_Mov_Kernel 

TOV eax, 0x1000 

IOV ds, eax 

mov dword [OffsetOfKernelFileCount], eqdi 
pop esi 

pop ds 

pop edi 

pop fs 

pop eax 

pop cx 

call Func_GetFATENtry 

jmp Label_Go_On Loading_File 


间 。 为 了 避免 转 存 环节 发 生 错误 ， 还 是 
项 工作 。 由 于 内 核 体 积 庞 大 必须 逐个 艇 地 读 取 和 转 存 ， 那 么 每 


这 部 分 程序 负责 将 内 核 程序 读 取 到 临时 转 存 空间 中 ， 随 后 再 


将 其 移动 至 1 MB 以 上 的 物理 内 存 空 


个 字 节 一 个 字 节 的 复制 为 妙 ， 借 助 汇编 指令 LOOP 可 完成 此 


移 值 ， 该 值 (EDI 寄存 器 ) 保存 于 临 


次 转 存 内 核 程序 片段 时 必须 保存 


时 变量 OffsetOfKernelFil 


目标 偏 


count 中 。 


相信 你 一 定 注 意 到 了 这 段 程 序 中 关于 FS 段 寄存 器 的 操作 。 这 段 代 码 在 Bochs 虚 拟 机 中 是 可 以 达到 
预期 效果 的 ， 待 其 移植 到 物理 平台 上 就 会 出 现 问题 。 这 个 问题 将 在 第 7 章 予 以 更 正 ， 请 读者 多 加 留意 。 


当 内 核 程序 被 加 载 到 1 MB 以 上 物理 内 存 地 址 后 ， 使 用 代码 清单 3-20 在 


屏幕 的 第 0 行 第 39 列 显示 一 


个 字符 'G' 。 此 举 不 仪 可 


以 隔离 内 核 程序 的 加 载 过 程 ， 还 引入 了 一 种 高 效 的 字符 显示 方法 。 


代码 清单 3-20 ”第 3 章 \ 程 序 \ 程 序 3-4\loaderasm 


Label_File_Loaded: 


mov ax, 0B800n 

mov gs, ax 

mov ah, 0Fh ; 0000: 黑 底 1111: 白字 

mov al, 'G' 

mov [gs:((80 * 0 + 39) * 2)], ax ; 屏幕 第 0 行 ， 第 39 列 。 
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这 段 代 码 首先 将 GS 段 寄存 器 的 基地 址 设置 在 0B800h 地 址 处 ， 并 将 AH 寄存 器 赋值 为 0Fh， 将 AL 
寄存 器 赋值 为 字母 'G' ， 然 后 将 AX 寄 存 右 的 值 填充 到 地 址 90B800h 向 后 偏 移 (80 x0+39) x 2 处 。 该 方 
法 与 BIOS 的 INT 10h 中 断 服 务 程序 相 比 ， 更 符合 操作 显卡 内 存 的 习惯 。 从 内 存 地 址 0B800h 开 始 ， 是 一 
段 专 门 用 于 显示 字符 的 内 存 空间 ， 每 个 字符 占用 两 个 字 节 的 内 存 空 间 ， 其 中 低 字 节 保 存 显示 的 字符 ， 
高 字 节 保存 字符 的 颜色 属性 。 此 处 的 属性 值 0Fh 表 示 字 符 使 用 白色 字体 、 背景 。 图 3-8 是 此 刻 的 引 
导 加 载 程序 运行 效果 。 


THR 
Start Boot 5 


Start Loader 


ji62675 |a lm lears sc hxr | | | 1 1 | 


图 3-8 在 屏幕 上 显示 字符 'G， 


在 最 开始 的 1 MB 物理 地 址 空间 内 , 不 仅 有 显示 字符 的 内 存 空间 , 还 有 显示 像素 的 内 存 空 间 以 及 其 
他 用 途 的 内 存 空 间 。 这 段 代码 只 为 让 读者 了 解 操作 显示 内 存 的 方法 ， 毕 竞 不 能 长 期 依赖 BIOS 中 断 服务 
程序 。 在 不 和 久 的 将 来 ， 我 们 会 操作 更 高 级 的 像素 内 存 ， 甚 至 可 以 通过 像素 内 存在 屏幕 上 作画 或 者 播放 
视频 ， 更 多 内 容 将 会 在 第 7 章 中 讲述 。 

当 Loader 引 导 加 载 程 序 完成 内 核 程 序 的 加 载 工作 后 ， 软 盘 驱 动 顺 将 不 再 使 用 ， 通 过 代码 清单 3-21 
提供 的 程序 可 关闭 软驱 马达 。 


代码 清单 3-21 第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


KillMotor: 
push as 
mov dx, 03F2h 
mov al, 0 
out dx, al 
pop dx 


关闭 软驱 马达 是 通过 向 IO 端口 3F2h 写 人 控制 命令 实现 的 ， 此 端口 控制 着 软盘 驱动 器 的 不 少 硬件 
功能 。 表 3-4 罗 列 出 了 IO 端口 3F2h 可 控制 的 软盘 驱动 器 功能 。 
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表 3-4 ”软盘 驱动 器 控制 功能 表 
位 名 称 说 明 


7 MOT_EN3 控制 软驱 D 马 达 ，1: 启动 ; 0: 关闭 
6 MOT EN2 控制 软驱 C 马 达 ，1: 启动 ; 0: 关闭 
5 MOT_ENI1 控制 软驱 B 马 达 ，1: 启动 ; 0: 关闭 
4 MOT_EN0 控制 软驱 A 马 达 ，1: 启动 ; 0: 关闭 
3 DMA _INT 1: 允许 DMA 和 中 断 请 求 
0: 禁止 DMA 和 中 断 请 求 
2 RESET 1: 人 允许 软盘 控制 器 发 送 控制 信息 
0: 复位 软盘 驱动 器 
1 DRV_SEL1 00~11 用 于 选择 软盘 驱动 咒 A~D 
0 DRV_SEL0 


既然 已 将 内 核 程 序 从 软盘 加 载 到 内 存 ， 便 可 放心 地 向 此 IO 端口 写 和 人 数值 0 关闭 全 部 软盘 驱动 器 。 
在 使 用 OUT 汇 编 指 令 操 作 IO 端口 时 ， 需 要 特别 注意 8 位 端口 与 16 位 端口 的 使 用 区 别 。 

以 下 是 Intel 官 方 白皮书 对 OUT 指 令 的 概括 描述 : 

OUT 指 令 的 源 操作 数 根据 端口 位 宽 可 以 选用 AL/AX/EAX 寄 存 器 ; 目的 操作 数 可 以 是 立 

即 数 或 DX 寄 存 器 ， 其 中 立即 数 的 取 值 范围 只 能 是 8 位 宽 (0~FFh )， 而 DX 寄 存 器 允许 的 取 值 

范围 是 16 位 宽 (0~FFFFh )。 

当 内 核 程序 不 再 借助 临时 转 存 空间 后 ， 这 块 临时 转 存 空间 将 用 于 保存 物理 地 址 空间 信息 ， 代 码 清 
单 3-22 是 物理 地 址 空间 信息 的 获取 过 程 。 


代码 清单 3-22 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


2 ee get memory address size type 


mov bp, StartGetMemStructMessage 
int 10h 

TOV ebx, 0 

TOV ax, 0x00 

mov es, ax 

mov ll MemoryStructBufferAddr 


Label_Get_Mem Struct: 


mov eax, 0x0E820 

mov ecx, 20 

mov edx, 0x534D4150 
int 15h 

jE Label_Get_Mem Fail 


aaa di, 20 
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cmp ebx, 0 
jne Label_Get_ Mem Struct 
jmp Label_Get_Mem_ OK 


Label_Get_Mem Fail: 


mov bp, GetMemStructErrMessage 
int 10h 
jmp $ 


mov Loje GetMemStructOKkMessage 
int 10h 


物理 地 址 空间 信息 由 一 个 结构 体 数组 构成 ,计算 机 平台 的 地 址 空间 划分 情况 都 能 从 这 
组 中 反映 出 来 ， 它 记录 的 地 址 空间 类 型 包括 可 用 物理 内 存 地 址 空间 、 设 备 寄存 器 地 址 空间 、 内 存 空 
等 ,详细 内 容 将 会 在 第 7 章 中 讲解 。 

这 段 程序 借助 BIOS 中 断 服 务 程序 INT 15h 来 获取 物理 地 址 空间 信息 ， 并 将 其 保存 在 0x7E00 地 址 处 
的 临时 转 存 空间 里 ， 操 作 系 统 会 在 初始 化 内 存 管 理 单元 时 解析 该 结构 体 数 组 。 

代码 清单 3-23 的 作用 与 配置 系统 功能 无 关 ， 只 是 为 了 显示 一 些 查询 出 的 结果 信息 ， 它 与 
Label_File_Loadeq 模 块 使 用 相同 的 显示 方法 。 
代码 清单 3-23 ”第 3 章 \ 程 序 \ 程 序 3-4\loaderasm 

[SECTION .s161ib] 


[BITS EG] 
;======= display num in al 


Label_DispAL: 


push ecx 


push edx 
push edi 
mov edi, [DisplayPosition] 
mov ah, 0Fh 
mov dl, al 
shr al 4 
mov ecx 2 
begin 
and al, 0Fh 
cmp al 9 
ja 
add a 0 
jmp 2 
a 
sub al, OA 
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add al, 'A! 


mov [gs:edil], ax 


mov a dl 
loop .begin 
mov [DisplayPosition], edi 
pop edi 
pop edx 
pop ecx 
ret 
通过 这 个 程序 模块 可 将 十 六 进 制 数值 显示 在 屏幕 上 ， 执 行 Label_Di spAL 模 块 需要 提供 的 参数 说 


明 如 下 。 

模块 Lapel_Di spAL 功 能 : 显示 十 六 进 制 数 字 。 

口 AL= 要 显示 的 十 六 进 制 数 。 

Label_DispAL 模 块 首先 会 保存 即将 变更 的 寄存 器 值 到 栈 中 , 然后 把 变量 DisplayPosition 保 存 
的 屏幕 偏 移 值 ( 字符 游标 索引 值 ) 载 人 到 EDI 寄 存 需 中 ， 并 向 AH 寄存 器 存 人 字体 的 颜色 属性 值 。 为 了 
先 显示 AL 寄存 器 的 高 四 位 数据 , 暂且 先 把 AL 寄存 器 的 低 四 位 数据 保存 在 DL 寄 存 器 。 接 着 将 AL 寄存 器 
的 高 四 位 数值 与 9 比较 ， 如 果 大 于 9， 则 减 去 0Ah 并 与 字符 'A' 相 加 ， 和 否则， 直接 将 其 与 字符 ' 0' 相 加 。 
然后 将 AX 寄 存 器 (AL 与 AH 寄存 器 组 合 而 成 ) 的 值 , 保存 至 以 GS 段 寄存 器 为 基 址 、 DisplayPosition 
变量 为 偏 移 的 显示 字符 内 存 空间 中 。 最 后 再 按 上 述 执行 步 又 将 AL 寄存 器 的 低 四 位 数值 显示 出 来 。 
目前 ，Label_DispaL 模 块 的 主要 作用 是 显示 视频 图 像 芯片 的 查询 信息 ， 然 后 根据 查询 信息 配置 
芯片 的 显示 模式 ， 具 体 代 码 如 代码 清单 3-24 所 示 。 


代码 清单 3-24 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


六 三 三 三 三 三 三 三 set the SVGA mode (VESA VBE) 


jmp $ 
mov ax 4F02n 
IOV bX? 4180n NS 二 ss 二 =s=e.. /0X0 Or :0KLd3 
Ye 10P 
cmp ED 004Fh 
jniz Label_SET_SVGA_ Mode_VESA VBE_FAIL 
这 段 程序 设置 了 SVGA 芯 片 的 显示 模式 ， 代 码 中 的 0x180 和 0x143 是 显示 模式 号 ， 表 3-5 是 这 两 种 


显示 模式 号 的 属性 信息 。 


巴 


表 3-5 ”显示 模式 的 属性 信息 


模式 列 行 物理 地 址 像素 点 位 宽 
0x180 1440 900 e0000000h 32 bit 
0x143 800 600 e0000000h 32 bit 
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此 部 分 内 容 是 关于 VBE (VESABIOSEXTENSION ) 的 显示 模式 ， 通 过 设置 不 同 的 显示 模式 号 ， 
可 配置 出 不 同 的 屏幕 分 辨 率 、 每 个 像素 点 的 数据 位 宽 、 颜 色 格 式 等 。 这 些 信 息 缘 是 从 Bochs 虚 拟 平台 
的 SVGA 芯 片 中 获得 ， 读 者 目前 只 要 了 解 表 3-$ 描 述 的 内 容 就 可 以 了 ， 更 多 知识 将 在 第 7 章 中 讲解 。 


截至 目前 ,， 尽管 程序 3-4 中 的 loader.asm 程 序 还 未 讲解 完 , 但 屏幕 显示 效果 部 分 已 经 基本 叙述 完毕 。 


图 3-9 是 程序 运行 到 这 个 阶段 时 的 执行 结果 。 


Bochs x86-64 emulator, http://bochs.sourceforge.nei 


品 
6160610191029103910491059010D0160E010F01100111011201139114011501160117011801400141 
9691420143914461466175017601779018D018E918FFFFF 
Btart Louder,. ss redid RT 抽 全 放 


Start Get Memory Struct . 


Get Memory Struct SUCCESSFULY 
Start Get SUGA UBE Info 
Get SUGA UBE Info SUCCESSFULY 
Start Get SUGA Mode Info 


Get SUGA Mode Info SUCCESSFUL+ _ 


IPS; 58.418H |a: Inum lcars cn luncr | | | | | | 


图 3-9 ”Loader 执 行 效果 图 


图 3-9 中 记录 的 一 串 数 字 是 ， 通 过 调用 Label_DispaL 模 块 打 印 出 的 SVGA 芯 片 支持 的 显示 模式 


号 。 此 时 的 start Boot 字 符 串 已 被 覆盖 ,说 明 start Boot 字 符 串 也 在 显示 字符 的 内 存 空间 0B800h 
里 。 观 察 start Loader 字 符 串 后 面 的 .符号 个 数 ， 读 者 想必 能 猜 到 kernel.bin 文 件 的 规模 了 。 


经 过 本 节 内 容 的 学 习 ， 相 信 读 者 的 汇编 语言 水 平 已 经 有 了 很 大 程度 的 提升 。 本 节 所 编写 的 汇编 各 
序 算是 复习 过 去 大 学 里 学 到 的 知识 吧 。 更 重要 的 汇编 知识 几乎 只 有 在 编写 操作 系统 核心 时 才能 用 到 ， 


[a 


也 只 有 掌握 这 些 知识 才 算 对 汇编 语言 有 了 真正 的 了 解 。 


3.2.3 ”从 实 模式 进入 保护 模式 再 到 IA-32e 模式 


3.2.2 节 已 经 对 部 分 Loader 引 导 加 载 程序 进行 了 讲解 ， 当 使 用 这 部 分 程序 检测 出 硬件 信息 后 ， 下 卫 
就 该 脱离 实 模式 进入 到 保护 模式 。 
在 实 模式 下 ， 程 序 可 以 操作 任何 地 址 空间 ， 而 且 无 法 限制 程序 的 执行 权限 。 尽 管 这 种 模式 给 设置 


硬件 功能 带 来 许多 方便 ， 但 却 给 程序 执行 的 安全 性 和 稳定 性 带 来 了 灾难 性 的 后 果 ， 一 旦 程序 执行 错 


误 ， 很 可 能 导致 整个 系统 骨 溃 。 况 且 实 模式 的 寻 址 能 力 有 限 ， 故 而 才 进 化 出 保护 模式 。 
在 保护 模式 里 ， 处 理 器 按 程序 的 执行 级 别 分 为 0(、1、2、3 四 个 等 级 ( 由 高 到 低 排序 )。 最 高 等 级 0 


由 系统 内 核 使 用 ， 最 低 等 级 3 由 应 用 程序 使 用 ，Linux 内 核 目前 仅 使 用 这 两 个 等 级 (0 级 和 3 级 )。 而 等 


权限 ， 还 引入 了 分 页 
理 ， 而 且 还 缩减 了 应 


级 1 和 等 级 2 介 于 内 核 程序 与 应 用 程序 之 间 ， 它 们 通常 作为 系统 服务 程序 来 使 用 。 虽 然 层 级 划分 的 决定 
权 在 系统 开发 者 手 里 
功能 。 分 页 功能 将 庞大 的 地 址 空间 划分 成 固定 大 小 的 内 存 页 面 ， 此 举 不 仅 便于 管 


， 但 一 些 特殊 汇编 指令 必须 在 0 特权 级 下 才能 执行 。 保 护 模 式 不 仅 加 入 了 程序 的 


程序 的 空间 浪费 现象 。 不 过 ， 在 保护 模式 的 段 级 保护 措施 中 ， 从 段 结构 组 织 的 
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复杂 性 ， 到 段 间 权 限 检测 的 繁琐 性 ， 再 到 执行 时 的 效率 上 ， 都 显得 腑 肿 ， 而 且 

率 和 编程 的 灵活 性 。 当 页 管理 单元 出 现 后 ， 段 机 

内 存 的 不 断 渴 望 ，IA-32e 模 式 便 应 运 而 生 。 
IA-32e 模 式 不 仅 简化 段 级 保护 措施 的 复杂 性 ， 升 级 内 存 寻 址 能 


结构 和 页 面 大 小 ， 推 出 新 的 系统 调用 方式 和 高 级 可 编程 中 断 控 制 器 。 
关于 本 闻 程 序 的 原理 级 内 容 ， 读 者 可 以 结合 第 6 章 关 于 处 理 器 体系 结构 的 知识 同步 阅读 。 
1. 从 实 模 式 进入 保护 模式 


有 六 


， 同 时 还 扩展 页 管 型 


F 多 读者 可 能 会 对 处 理 器 的 模式 切换 没有 编程 思路 ， 不 过 好 在 Intel 官 方 白 


单元 的 组 织 


[还 降低 了 程序 的 执行 效 
出 显得 更 加 多 余 。 随 着 硬件 速度 不 断 提升 和 对 大 容量 


也 


皮 书 已 经 为 我 们 做 了 


详尽 的 描述 ( 请 参考 Intel 官 方 白皮书 Volume 3 的 9.8.1、9.8.2、9.8.3、9.8.4 节 )。 下面 让 我 们 逐步 完成 从 


实 模 式 向 保护 模式 切换 工作 。 在 处 型 


换 过 程 必 备 的 系统 数据 结构 。 
为 了 进入 保护 模式 ， 处 理 器 必须 在 模式 切换 前 ， 在 内 存 中 创建 一 段 可 在 保护 模式 下 执行 的 代码 以 
及 必要 的 系统 数据 结构 ， 只 有 这 样 才能 保证 模式 切换 的 顺利 完成 。 相 关系 统 数据 结构 包括 


IDT/GDTLDT 描 述 符 表 各 一 个 (LDT 表 可 选 )、 任 务 状态 段 TSS 结 构 、 至 少 一 个 页 目录 和 页 表 〈 如 果 


开启 分 页 机 制 ) 和 至 少 一 个 异常 /中 断 处 理 模块 。 


式 后 ， 使 能 


! 靳 前 )、 控 和 


器 执行 模式 切换 代码 前 ， 应 该 先 了 解 模式 切换 前 的 准备 工作 和 切 


~ 


在 处 理 器 切换 到 保护 模式 前 ， 还 必须 初始 化 GDTR 寄 存 器 、IDTR 寄 存 器 ( 亦 可 推迟 到 进入 保护 模 
站 寄存 器 CR1~4、MTTRs 内 存 范 围 类 型 寄存 器 。 


口 系统 数据 结构 。 系 统 在 进入 保护 模式 前 ， 必 须 创 建 一 个 拥有 代码 段 描 述 符 和 数据 段 描述 符 的 


口 


GDT ( Globad Descriptor Table， 全 


可 ， 无 需 创建 专 


局 描述 符 表 ) ( 第 一 项 必须 是 NULL 描 述 符 )， 并 
用 LGDT 汇 编 指令 将 其 加 载 到 GDTR 寄 存 器 。 保 护 模 式 的 栈 寄 存 器 SS ， 使 用 可 读 写 的 数据 段 即 
描述 符 。 对 于 多 段 式 操作 系统 ， 可 采用 LDT ( Local Descriptor Table， 局 部 


且 一 定 要 使 


描述 符 表 ) 必须 保存 在 GDT 表 的 描述 符 中 ) 来 管理 应 用 程序 ， 多 个 应 用 程序 可 独 享 或 共享 


个 局 部 描述 符 表 LDT。 如 果 和 希望 开启 分 页 机 制 ， 则 必须 准备 至 少 一 个 页 目录 项 和 页 表 项 。( 如 


果 使 


用 4 MB 页 表 ， 那 么 准备 一 个 页 目录 即 可 。 ) 


中 断 和 异常 。 在 保护 模式 下 ， 中 断 /异常 处 理 程序 皆 由 IDT ( Interrupt Descriptor Table， 中 断 描 


述 符 表 ) 来 管理 。IDT 由 若干 个 门 描述 符 组 成 ， 如 果 采 用 中 断 门 或 陷阱 门 描述 符 ， 它 们 可 以 直 
接 指 向 异常 处 理 程 序 ， 如 果 采 用 任务 门 描述 符 ， 则 必须 为 处 理 程 序 准 备 TSS 段 描述 符 、 


额外 的 


代码 和 数据 以 及 任务 段 描述 符 等 结构 。 如 果 处 理 器 允许 接收 外 部 中 断 请 求 ， 那 么 IDT 还 必须 为 


寄存 咒 ， 典 型 的 加 载 时 机 是 在 处 理 器 切换 到 保护 模式 前 。 


分 页 机 制 。CR0 控 制 寄存 器 的 PG 标 志 位 用 于 控制 分 页 机 制 的 开启 与 关闭 
位 PG 标志 位 ) 前 ， 必 须 在 内 存 中 创建 一 个 页 目录 和 页 表 ( 此 时 的 页 
物理 页 )， 并 将 页 目录 的 物理 地 址 加 载 到 CR3 控 人 


每 个 中 断 处 理 程序 建立 门 描 述 符 。 在 使 用 [IDT 表 前 ， 必 须 使 用 LIDT 汇 编 指令 将 其 加 载 到 IDTR 


备 就 绪 后 ， 


E 往 与 模式 


人 


转换 同时 进行 ， 不 能 在 进入 保护 模式 前 开启 分 页 机 


站 寄存 器 (或 称 PDBR 寄 存 器 )。 当 上 述 ]] 
可 同时 置 位 控制 寄存 器 CR0 的 PE 标志 位 和 PG 标志 位 ， 来 开启 分 页 机 制 。( 分 页 机 制 


判 。 ) 


。 在 开启 分 页 机 制 ( 置 
目录 和 页 表 不 可 使 用 同一 
[ 作 准 


口 多 任务 机 制 。 如 果 和 希望 使 用 多 任务 机 制 或 允许 改变 特权 级 ， 则 必须 在 首次 执行 任务 切换 前 , 创 


建 至 少 一 个 人 


E 务 状态 段 TSS 结 构 和 附加 的 TSS 段 描述 符 。( 当 特 权 级 切换 至 0、1 
存 右 与 栈 指针 寄存 髓 皆 从 TSS 段 结构 中 取得 。 ) 在 使 用 TSS 段 结构 前 ， 必 须 使 月 


、2 时 ， 栈 段 寄 
LTR 汇编 指令 
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将 其 加 载 至 TR 寄存 器 ， 这 个 过 程 只 能 在 进入 保护 模式 后 执行 。 此 表 也 必须 保存 在 全 局 描述 符 
表 GDT 中 ， 而 且 任 务 切换 不 会 影响 其 他 段 描述 符 、LDT 表 、TSS 段 结构 以 及 TSS 段 描述 符 的 自 
创建 。 只 有 处 理 咒 才能 在 任务 切换 时 置 位 TSS 段 描述 符 的 忙 状 态 位 ， 和 否则 忙 状态 位 始终 保持 
复位 状态 。 如 果 有 既 不 想 开启 多 任务 机 制 ， 也 不 允许 改变 特权 级 ， 则 无 需 加 载 TR 任 务 寄存 器 ， 
由 无 需 创建 TSS 段 结构 。 

相信 读者 已 经 知道 哪些 任务 必须 在 进入 保护 模式 之 前 完成 ， 再 结合 第 6 章 关 于 描述 符 结构 的 知 
识 ， 方 可 轻松 应 对 保护 模式 切换 前 的 数据 准备 工作 。 代 码 清单 3-25 是 为 向 保护 模式 切换 而 准备 的 系统 
数据 结构 。 


代码 清单 3-25 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


[SECTION gdt] 


LABEL_GDT: dq 0,0 
LABEL_DESC_CODE32: dd Ox0000FFFF, 0x00CF9AO0O0 
LABEL_DESC_DATA32: dq Ox0000FFFF, 0x00CF9200 
GdtLen eqau $ - LABEL_GDT 
GdtPptr dw GdtLen - 1 

dq LABEL_GDT 
SelectorCode32 equ LABEL_DESC_CODE32 - LABEL_GDT 
SelectorData32 equ LABEL_DESC_DATA32 - LABEL_GDT 


本 段 程 序 创建 了 一 个 临时 GDT 表 。 为 了 避免 保护 模式 段 结构 的 复杂 性 ， 此 处 将 代码 段 和 数据 段 的 
段 基地 址 都 设置 在 0x00000000 地 址 处 ， 段 限 长 为 0xffffffff， 即 段 可 以 索引 0~4 GB 内 存 地 址 空间 。 
更 多 信息 可 以 参照 第 6 章 的 相关 内 容 ， 这 里 暂 不 做 详细 讲解 。 

为 GDT 表 的 基地 址 和 长 度 必须 借助 LGDT 汇 编 指令 才 能 加 载 到 GDTR 寄 存 器 , 而 GDTR 寄 存 器 是 
一 个 6 B 的 结构 ， 结 构 中 的 低 2 B 保 存 GDT 表 的 长 度 ， 高 4 B 保 存 GDT 表 的 基地 址 ， 标 识 符 GatPtz 是 此 
结构 的 起 始 地 址 。 这 个 GDT 表 曾经 用 于 开启 Big Real Mode 模 式 ， 由 于 其 数据 段 被 设置 成 平坦 地 址 空间 
( 0~4 GB 地 址 空间 )， 故 此 FS 段 寄 存 带 可 以 寻 址 整个 4 GB 内 存 地 址 空间 。 

代码 中 的 标识 符 Selectorcode32 和 selectorData32 是 两 个 段 选择 子 ( Selector )， 它 们 是 段 描 
述 符 在 GDT 表 中 的 索引 号 。 

除了 必须 为 GDT 手 动 创建 初始 数据 结构 外 ， 还 需要 为 IDT 开 辟 内 存 空间 ， 代 码 清单 3-26 是 详细 的 
内 存 空间 申请 代码 。 


代码 清单 3-26 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


人 tmp IDT 


times 0x50 dq 0 
IDT BND: 


DT POINTER: 
dw IDT_END - IDT - 1 
dd TD 
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在 处 理 器 切换 至 保护 模式 前 ， 引 导 加 载 程序 已 使 用 cLI 指 令 禁 止 外 部 中 断 ， 所 以 在 切换 到 保护 模 
式 的 过 程 中 不 会 产生 中 断 和 异常 ， 进 而 不 必 完 整地 初始 化 IDDT， 只 要 有 相应 的 结构 体 即 可 。 如 果 能 
保证 处 理 器 在 模式 切换 的 过 程 中 不 会 产生 异常 ， 即 使 没有 IDT 也 可 以 。 

当 保护 模式 的 系统 数据 结构 准备 就 绪 后 ， 便 可 着 手 编写 模式 切换 程序 。 处 理 器 从 实 模式 进入 保 
护 模 式 的 契机 是 ， 执 行 Mov 汇 编 指 令 置 位 CR0 控 制 寄 存 器 的 PE 标志 位 (可 同时 置 位 CR0 寄 存 器 的 PG 
标志 位 以 开启 分 页 机 制 )。 进 入 保护 模式 后 ， 处 理 器 将 从 0 特权 级 (CPL=0 ) 开始 执行 。 为 了 保证 代 
码 在 不 同 种 Intel 处 理 器 中 的 前 后 兼容 性 ， 建 议 遵 循 以 下 步骤 执行 模式 切换 操作 ( 请 参考 Intel 官 方 白 
皮 书 volume 3 的 9.9.1 节 )。 

(1) 执行 cLI 汇 编 指令 禁止 可 屏蔽 硬件 中 断 ， 对 于 不 可 屏蔽 中 断 NMI 只 能 借助 外 部 电路 才能 禁止 。 
(模式 切换 程序 必须 保证 在 切换 过 程 中 不 能 产生 异常 和 中 断 。 ) 

(2) 执行 LGDT 汇 编 指令 将 GDT 的 基地 址 和 长 度 加 载 到 GDTR 寄 存 器 。 

(3) 执行 Mov cR0 汇 编 指 令 位 置 CR0 控 制 寄 存 器 的 PE 标志 位 。( 可 同时 置 位 CR0 控 制 寄存 器 的 PG 标 
志 位 。) 

(4) 一 旦 Mov CR0 汇 编 指令 执行 结束 ， 紧 随 其 后 必须 执行 一 条 远 跳 转 ( far JMP ) 或 远 调用 ( far 
CALL ) 指令 ， 以 切换 到 保护 模式 的 代码 段 去 执行 。( 这 是 一 个 典型 的 保护 模式 切换 方法 。 ) 

(5) 通过 执行 JMP 或 caALL 指 令 ， 可 改变 处 理 器 的 执行 流水 线 ， 进 而 使 处 理 器 加 载 执行 保护 模式 的 
代码 段 。 

(6) 如 果 开 启 分 页 机 制 ， 那 么 Mov cR0 指 令 和 JMP/cALL ( 跳 转 /调用 ) 指令 必须 位 于 同一 性 地 址 
映射 的 页 面 内 。( 因为 保护 模式 和 分 页 机 制 使 能 后 的 物理 地 址 ， 与 执行 JMP/cALL 指 令 前 的 线性 地 址 
相同 。) 至 于 JMP 或 cALL 指 令 的 目标 地 址 , 则 无 需 进 行 同一 性 地 址 映射 (线性 地 址 与 物理 地 址 重合 )。 

(7) 如 和 需 使 用 LDT， 则 必须 借助 LLpT 汇 编 指令 将 GDT 内 的 LDT 段 选择 子 加 载 到 LDTR 寄 存 器 中 。 

(8) 执行 LTR 汇 编 指令 将 一 个 TSS 段 描述 符 的 段 选 择 子 加 载 到 TR 任务 寄存 器 。 处 理 器 对 TSS 段 结构 
无 特殊 要 求 ， 凡 是 可 写 的 内 存 空间 均 可 。 

(9) 进入 保护 模式 后 ， 数 据 段 寄存 器 仍旧 保留 着 实 模式 的 段 数据 ， 必 须 重 新 加 载 数 据 段 选择 子 或 
使 用 JMP/cCALL 指 令 执 行 新 任务 , 便 可 将 其 更 新 为 保护 模式 。( 执行 步骤 (4) 的 JMP 或 CALL 指 令 已 将 代码 
段 寄 存 器 更 新 为 保护 模式 。 ) 对 于 不 使 用 的 数据 段 寄 存 器 (DS 和 SS 寄存 器 除外 )， 可 将 NULL 段 选择 子 
加 载 到 其 中 。 

(10) 执行 LIDT 指 令 ， 将 保护 模式 下 的 IDT 表 的 基地 址 和 长 度 加 载 到 IDTR 寄 存 器 。 

(11) 执行 sTI 指 令 使 能 可 屏蔽 硬件 中 断 ， 并 执行 必要 的 硬件 操作 使 能 NMI 不 可 屏蔽 中 断 。 

掌握 上 述 切换 步骤 后 ， 编 程 思路 就 非常 清晰 了 。 在 实际 编码 时 ， 不 必 有 严格 遵照 标准 步 又 执行 ， 可 
适当 做 些 调整 和 变通 。 本 系统 编写 的 保护 模式 切换 代码 就 在 标准 步 又 的 基础 上 做 出 了 适当 调整 ， 代 码 
清单 3-27 是 模式 切换 步骤 的 详细 程序 实现 。 


代码 清单 3-27 第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


;======= init IDT GDT goto protect mode 


cli ;=S=SSCLOSe intertrudt 


db Ox66 
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lgdt [GdtPtr] 
db 0x66 
地 Ld 世 [IDT_POINTER] 
mov eax, cr0 
DE eax, 1 
mov cr0s eax 
jmp dword SelectorCode32:G0O_TO_TMP_Protect 


这 段 代 码 在 执行 加 载 描述 符 表 指 令 之 前 均 插 入 一 个 字 节 db 0x66， 这 个 字 节 是 LGDT 和 LIDT 汇 
编 指 令 的 前 级 ， 用 于 修饰 当前 指令 的 操作 数 是 32 位 宽 。 而 最 后 一 条 远 跳 转 指令 已 明确 指定 跳 转 的 目 
标 代码 段 选择 子 和 有 段 内 偏执 地 址 。 如 果 在 G0_TO_TMP_Protect 地 址 处 设置 断 点 , 或 者 使 用 汇编 代 
码 jmp $s 将 处 理 器 暂停 在 此 处 ,通过 Bochs 虚 拟 机 终端 命令 行 查看 处 理 器 当前 的 段 寄存 器 信息 ， 如 下 
所 示 : 


<bochs:2> sreg 


es:0x1000, dh=0x00009301, dl=0x0000ffff, valid= 

Data segment, base=0x00010000, limit=0x0000ffff, Read/Write, Accessed 
SO0x0008,. dh=0x00Gr00., dT=0x0000ffff. “vatidsl 

Code segment, base=0x00000000, limit=0xffffffff, Execute/Read, Non-Conforming, 
Accessed, 32-bit 
ss:0x0000, dh=0x00009300, dl=0x0000ffff, valid=7 

Data segment, base=0x00000000, limit=0x0000ffff, Read/Write, Accessed 
ds:0x1000, dh=0x00009301, dl=0x0000ffff, valid=3 

Data segment, base=0x00010000, limit=0x0000ffff, Read/Write, Accessed 
fs0x00L0% dhas0xQ0GE9300,. dL=s0x0TO0f Eff ali 

Data segment, base=0x00000100, limit=0xffffffff, Read/Write, Accessed 
gs:0xb800, dh=0x0000930b, dl=0x8000ffff, valid=7 

Data segment, base=0x000b8000, limit=0x0000ffff, Read/Write, Accessed 
ldtr:0x0000, dh=0x00008200, dl=0x0000ffff, valid= 
tr:0x0000, dh=0x000081b00, dl=0x0000ffff, valid= 
gdtr:base=0x0000000000010040, 1limit=0x17 
idtr:base=0x0000000000000000，,， limit=0x3ff 


在 上 述 段 寄 存 器 信息 里 ，CS 段 寄存 器 中 的 段 基 地 址 pase、 段 限 长 limit 以 及 其 他 段 属性 ， 自 汇编 
代码 jmp dwordSelectorCode32:GO_TO_TMP_Protect 执 行 后 缘 发 生 了 改变 。 与 此 同时 ，GDTR 寄 
存 器 中 的 数据 已 更 新 为 catPtr 结 构 记 录 的 GDT 表 基地 址 和 长 度 。 

再 使 用 info flags 命 令 查 看 EFLAGS 标 志 寄 存 器 的 PF 标志 位 。 以 下 是 具体 查询 信息 ， 从 中 可 见 
PF 标志 位 已 被 置 位 (大 写字 母 ): 


<bochs:3> info flags 
id vip vif ac vm rf nt IOPL=0 of df if tf sf zf af PF cf 


如 果 向 终端 命令 行 输入 命令 gq 退出 虚拟 机 ， 则 会 显示 如 下 信息 ， 来 说 明 处 理 器 当前 的 运行 状态 ， 
其 中 的 日 志 信息 cPU is in protected mode (active) 已 表明 处 理 右 正 运行 在 保护 模式 下 : 
<bochs:7> q 

00250932000i[ ] dbg: Quit 


00250932000i [CPU0O ] CPU is in protected mode (active) 
00250932000i[CPU0 ] CS.mode = 32 bit 
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00250932000i [CPUO SS.mode = 16 bit 
00250932000i [CPUO EFER = 0x00000000 
00250932000i [CPUO EAX=60000011 EBX=00004180 ECX=0000001le EDX=00000e00 
00250932000i [CPUO ESP=00007c00 EBP=000008ee ESI=0000804c EDI=00009700 
00250932000i [CPUO IOPL=0 id vip vif ac vm rf nt of df if tf sf zf af PF cf 
00250932000i [CPUO SEG sltr(index|ti|rpl) base limit G D 
00250932000i [CPUO CS:0008( 0001| 0 0) 00000000 ffffffff 1 1 
00250932000i [CPUO DS:1000( 0005| 0 0) 00010000 0000ffff 0 0 
00250932000i [CPUO SS:0000( 0005| 0 0) 00000000 0000ffff 0 0 
00250932000i [CPUO ES:1000( 0005| 0 0) 00010000 0000ffff 0 0 
00250932000i [CPUO FS:0010( 0002| 0 0) 00000100 ffffffff 1 1 
00250932000i [CPUO GS:b800( 0005| 0 0) 000b8000 0000ffff 0 0 
002509320001[CPU0 EIP=00010390 (00010390 ) 
00250932000i [CPUO CRO=0x60000011 CR2=0x00000000 
00250932000i [CPUO CR3=0x00000000 CR4=0x00000000 
(0).[250932000] [0x000000010390] 0008:0000000000010390 (unk. ctxt): jmp .-5 
(Ox00010390) ; e9fbpffffff 
00250932000i [CMOS Last time is 1431928744 (Mon May 18 13:59:04 2015) 
00250932000i [XGUI Exit 
00250932000i[SIM quit_sim called with exit code 0 
[root@localhost bochs-2.6.8]# 
经 过 漫长 的 准备 工作 ， 处 理 器 终于 进入 到 保护 模式 。 这 仅仅 是 一 个 开始 ， 后 面 还 有 许多 挑战 在 等 


2. 从 保护 模式 进入 IA-32e 模 式 
学 习 了 保护 模式 的 切换 过 程 后 ， 再 来 学 习 IA-32e 模 式 的 切换 过 程 就 容易 得 多 。Intel 官 方 白皮书 依然 
对 IA-32e 模 式 的 初始 化 过 程 做 出 了 详细 的 描述 〈 请 参考 Intel 官 方 白皮书 Volume 3 的 9.8.5 节 、9.8.5.1 节 和 


9.8.5.2 市 )。 


在 进入 IA-32e 模 式 前 ， 处 理 


相关 控制 寄存 器 。 与 此 同时 ， 还 要 求 处 理 器 只 能 在 开启 分 页 机 


着 我 们 。 当 处 理 器 进入 保护 模式 后 ， 紧 接着 将 会 再 转 人 IA-32e 模 式 〈64 位 模式 )。 


器 依然 要 为 IJA-32e 横 式 准备 执行 代码 、 必 要 的 系统 数据 结构 以 及 配置 
所 的 保护 模式 下 切换 到 IA-32e 模 式 。 


口 系统 数据 结构 。 当 IA-32e 模 式 激活 后 ， 系 统 各 描述 符 表 寄 存 器 (GDTR、LDTR、IDTR、TR) 


依然 沿用 保护 模式 的 描述 符 表 。 由 


于 保护 模式 的 描述 符 表 基地 址 是 32 位 ， 这 使 得 它们 均 位 于 低 


4GB 线 性 地 址 空间 内 。 既 然 已 经 开启 IA-32e 模 式 ， 那 么 系统 各 描述 符 表 寄 存 器 理应 ( 必须 ) 重 


寄存 器 会 人 


可 写 入 数据 ， 从 而 限制 页 表 只 能 寻 址 4 GB 物 开 
地 址 空间 。 一 旦 激活 IA-32e 模 式 ， 软 件 便 可 习 


只 能 使 用 前 


理 器 会 把 32 位 旭 


EF 随 着 处 理 器 的 


14 GB 物理 


新 加 载 (借助 LGDT、LLDT、LIDT 和 LTR 指 令 ) 为 IA-32e 模 式 的 64 位 描述 符 表 。 
口 中 断 和 异常 。 当 软件 激活 IA-32e 模 式 后 ， 中 断 描 述 符 表 寄存 器 IDTR 仍 然 使 用 保护 模式 的 
描述 符 表 , 那么 在 将 IDTR 寄 存 器 更 新 为 64 位 中 断 描述 符 表 IDT 前 不 要 触发 中 断 和 异常 ， 否则 处 
容 模式 的 中 断 门 解释 为 64 位 中 断 门 ， 从 而 导致 不 可 预料 的 
能 够 禁止 可 屏蔽 硬件 中 断 ， 而 NMI 不 可 屏蔽 
IA32_EFER 寄 存 器 ( 位 于 MSR 寄 存 器 组 内 ) 的 LME 标 志 位 用 于 控制 I[A-32e 模 式 的 玫 
EE 启 ( 重 置 ) 而 清 零 。IA-32e 模 式 的 页 管理 机 和 
结构 。 在 IA-32e 模 式 激活 前 ( cR0. 


结 呈 


日 


oo 


使 用 cLI 指 令 


! 断 ， 必 须 借助 外 部 硬件 电路 才 可 禁止 。 


F 启 与 关闭 ， 该 


判 将 物理 地 址 扩展 为 四 层 页 表 


PG=1， 处 理 器 运行 在 32 位 兼容 模式 )，CR3 控 制 寄存 器 仅 有 低 32 位 


方 。 以 下 是 IA-32e 模 式 的 标准 初始 化 步骤 。 


内 存 空 间 ， 也 就 是 说 在 初始 化 IA-32e 模 式 时 ， 分 页 机 制 


EE 定位 页 表 到 物理 内 存 空 间 的 任何 地 
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(1) 在 保护 模式 下 , 使 用 Mov cR0 汇 编 指 令 复 位 CR0 控 制 寄存 器 的 PG 标志 位 ， 以 关闭 分 页 机 制 。( 此 
后 的 指令 必须 位 于 同一 性 地 址 映射 的 页 面 内 。 ) 

(2) 置 位 CR4 控 制 寄存 器 的 PAE 标 志 位 ， 开 启 物理 地 址 扩展 功能 (PAE )。 在 IA-32e 模 式 的 初始 化 过 
程 中 ， 如 果 PAE 功 能 开启 失败 ， 将 会 产生 通用 保护 性 异常 ( #GP )。 

(3) 将 页 目录 ( 顶层 页 表 PML4 ) 的 物理 基地 址 加 载 到 CR3 控 制 寄存 器 中 。 

(4) 置 位 IA32 EFER 寄 存 器 的 LME 标 志 位 ， 开 启 IA-32e 模 式 。 

(5) 置 位 CR0 控 制 寄 存 器 的 PG 标 志 位 开启 分 页 机 制 ， 此 时 处 理 器 会 自动 置 位 IA32_ ERER 寄 存 器 的 
LMA 标 志 位 。 当 执行 Mov CR0 指 令 开启 分 页 机 制 时 , 其 后 续 指令 必须 位 于 同一 性 地 址 映射 的 页 面 内 ( 直 
至 处 理 器 进入 IA-32e 模 式 后 ， 才 可 以 使 用 非 同一 性 地 址 映射 的 页 面 )。 

如 果 试 图 改变 IA32 EFER.LME 、CR0.PG 和 CR4.PAE 等 影响 IA-32e 模 式 开启 的 标志 位 ， 处 理 器 会 
进行 64 位 模式 的 一 致 性 检测 ， 以 确保 处 理 器 不 会 进入 未 定义 模式 或 不 可 预测 的 运行 状态 。 如 果 一 致 性 
检测 失败 ， 处 理 器 将 会 产生 通用 保护 性 异常 ( #GP )。 以 下 境遇 会 导致 一 致 性 检测 失败 。 

口 当 开 启 分 页 机 制 后 ， 表 试图 使 能 或 禁止 IA-32e 模 式 。 

口 当 开启 IA-32e 模 式 后 ， 试 图 在 开启 物理 地 址 扩展 ( PAE ) 功能 前 使 能 分 页 机 制 。 

口 在 激活 IA-32e 模 式 后 ， 试 图 禁止 物理 地 址 扩展 ( PAE )。 

口 当 CS 段 寄存 器 的 工 位 被 置 位 时 ， 再 试图 激活 IA-32e 模 式 。 

口 如 果 TR 寄 存 右 加 载 的 是 16 位 TSS 段 结构 。 

在 学 习 了 关于 IA-32e 模 式 的 切换 知识 后 ， 再 结合 第 6 章 关 于 IA-32e 模 式 的 相关 内 容 ， 相 信 IA-32e 
模式 切换 的 编程 思路 已 经 非常 清晰 。 代 码 清单 3-28 是 为 了 切换 到 IA-32e 模 式 而 准备 的 临时 GDT 表 结 
构 数 据 。 


代码 清单 3-28 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


[SECTION gdt64] 


LABEL_GDT64: dq 0x0000000000000000 
LABEL_DESC_CODE64: dq 0x0020980000000000 
LABEL_DESC_DATAG64: dq 0x0000920000000000 
GdtLen64 equ $ - LABEL GDT64 
GdtPtr64 dw GdtLen64 - 1 

dq LABEL_GDT64 


SelectorCode64 equ LABEL DESC_ CODE64 - LABEL GDT64 
SelectorData64 equ LABEL DESC_DATA64 - LABEL GDT64 


IA-32e 模 式 的 段 结构 与 保护 模式 的 段 结构 极其 相似 ， 不 过 此 处 的 数据 显得 更 为 简单 。 因 为 IA-32e 
模式 简化 了 保护 模式 的 段 结构 ， 删 减 掉 宛 余 的 段 基 地 址 和 上 段 限 长 ， 使 段 直接 获 羡 整个 线性 地 址 空间 ， 
进而 变 成 平坦 地 址 空间 。 当 准备 好 段 结构 的 初始 化 信息 后 ， 方 可 从 Go_To_TMP_Protect 地 址 处 开始 
执行 IA-32e 模 式 的 切换 程序 ， 请 看 代码 清单 3-29。 


代码 清单 3-29 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


[SECTION .s32] 
[BITS. 32 
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GO TO "TMBE- Proteect:: 


人 go to tmp long mode 


IOV Sb 0x10 
IOV ds, ax 
mov es, ax 
mov fs., ax 
IOV ss, ax 
mov esp, 7E0O0h 


call support_long_mode 
test eax, eax 


jz no_support 
一 旦 进入 保护 模式 , 首要 任务 是 初始 化 各 个 段 寄存 器 以 及 栈 指针 , 然后 检测 处 理 器 是 否 支 持 IA-32e 
模式 (或 称 长 模式 )。 如 果 不 支 持 IA-32e 模 式 就 进入 待机 状态 ， 不 做 任何 操作 。 如 果 支 持 IA-32e 模 式 ， 
则 开始 向 IA-32e 模 式 切 换 。 
代码 清单 3-30 是 IA-32e 模 式 的 检测 模块 ， 通 过 此 模块 可 检测 出 处 理 器 是 否 支持 IA-32e 模 式 。 


代码 清单 3-30 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


;======= test support long mode or not 


support_long_mode: 


IOV eax, 0x80000000 
cpuid 

cmp eax, 0x80000001 
setnb al 

jb support_long_mode_done 
IOV eax, 0x80000001 
cpuid 

bt edx, 2.9 

Sete al 


support_long_mode_done: 
movzx eax, al 
;=====: No-SUBBort 
DOSSUDBPOoOrt:: 
jmp $ 
由 于 cPUID 汇 编 指令 的 扩展 功能 项 0x80000001 的 第 29 位 , 指示 人 处理 器 是 否 支持 IA-32e 模 式 , 故此 
本 段 程 序 首先 检测 当前 处 理 器 对 cPUID 汇 编 指 令 的 支持 情况 ， 判 断 该 指令 的 最 大 扩展 功能 号 是 否 超 过 
0x8000000。 只 有 当 cPUID 指 令 的 扩展 功能 号 大 于 等 于 0x80000001 时 , 才 有 可 能 支持 64 位 的 长 模式 ， 
因此 要 先 检测 cPUID 指 令 支 持 的 扩展 功能 号 ， 再 读 取 相 应 的 标志 位 。 最 后 将 读 取 的 结果 存 人 EAX 寄存 
髓 供 模 块 调用 者 判断 。 以 下 是 对 cPUID 指 令 的 概括 描述 。 
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口 EFLAGS 标 志 寄 存 器 的 了 标志 位 (第 21 位 ) 表明 处 理 髓 是 否 支 持 cPUID 指 令 。 如 果 程 序 可 以 操 
作 ( 置 位 和 复位 ) 此 标志 位 ， 则 说 明 处 理 器 支持 CPUID 指 令 ，cPUID 指 令 在 64 位 模式 和 32 位 模 
式 的 执行 效果 相同 。 
口 cPUID 指 令 会 根据 EAX 寄 存 右 传人 的 基础 功能 号 ( 有 时 还 需要 向 ECX 寄 存 器 传人 扩展 功能 
号 )， 查 询 处 理 需 的 鉴定 信息 和 机 能 信息 ， 其 返回 结果 将 保存 在 EAX、EBX、ECX 和 EDX 寄 存 
器 中 。 
如 果 处 理 器 支持 IA-32e 模 式 ， 接 下 来 将 为 IJA-32e 模 式 配 置 临时 页 目录 项 和 页 表 项 ， 代 码 清单 3-31 
是 页 目录 项 和 页 表 项 的 配置 过 程 。 


代码 清单 3-31 第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


人 init template page table 0x90000 


mov dword 0x90000]， 0x91007 
mov dword 0x90800]， 0x91007 
mov dword 0x91000]， 0x92007 
mov dword 0x92000]， 0x000083 
mov dword O9200.8] 0x200083 
mov dword 0x92010]， 0x400083 
mov dword 0x92018]， 0x600083 
mov dword 0x92020]， 0x800083 
mov dword 0x92028]， 0xa00083 


这 段 程 序 将 IA-32e 模 式 的 页 目录 首 地 址 设置 在 0x90000 地 址 处 ， 并 相继 配置 各 级 页 表 项 的 值 (该 
值 由 页 表 起 始 地 址 和 页 属性 组 成 )。 关 于 页 表 属 性 的 描述 请 参见 第 6 章 分 页 机 制 的 内 容 。 

现在 ， 向 IA-32e 模 式 切 换 的 系统 数据 结构 均 已 准备 好 ， 随 后 借助 代码 清单 3-32 重 新 加 载 全 局 描述 
符 表 GDT， 并 初始 化 大 部 分 段 寄存 器 。 


代码 清单 3-32 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


和 load GDTR 
db 0x66 
lgdt [Gqt Ptr64] 
mov ax, 0x10 
mov ds, ax 
mov es, ax 
mov fs, ax 
mov gs, ax 
mov SS， ax 
mov esp, 7E00n 


代码 清单 3-32 使 用 LGDT 汇 编 指令 , 加 载 IA-32e 模 式 的 临时 GDT 表 到 GDTR 寄 存 器 中 , 并 将 临时 GDT 
表 的 数据 段 初始 化 到 各 个 数据 段 寄 存 器 ( 除 CS 段 寄存 器 外 ) 中 。 由 于 代码 段 寄 存 器 CS 不 能 采用 直接 
赋值 的 方式 来 改变 ， 所 以 必须 借助 跨 段 跳 转 指令 ( far JMP ) 或 跨 段 调用 指令 ( far caLL ) 才能 实 
现 改变 。 


A 
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bs 
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执行 完 这 段 代 码 后 ， 可 将 虚拟 机 暂停 在 此 处 来 查看 处 理 器 当前 各 段 寄存 器 的 状态 ， 


的 执行 


效果 。 以 下 是 段 寄 存 器 此 刻 的 状态 信 


<bochs:2> sreg 


es:0x0010, qd 


Data segment, 


cs:0x0008, qd 


Code segment, 
3 臣 


Accessed, 
ss:0x0010, dad 


Data segment, 


ds:0x0010, dad 


Data segment, 


fs:0x0010, dd 


Data segment, 


gs:0x0010, da 


Data segment, 


ldtr:0x0000, 
tr:0x0000, qd 


gdtr:base=0x0000000000010060, 
idtr:base=0x0000000000000000, 


当 DS、ES、FS、GS 、SS 段 寄存 器 加 载 了 IA-32e 模 式 的 段 描 述 符 后 


hn=0x00009300， 
base=0x0 
h=0x00cf9500, 
base=0x0 


h=0x00009300,， 
base=0x0 
h=0x00009300,， 
base=0x0 
h=0x00009300, 
base=0x0 
h=0x00009300, 
base=0x0 
dh=0x00008200,， 
hn=0x00008pb00 ， 


> (全 部 清 零 


7 展 功能 


( PAE ), 


自 


人 


dl=0x00000000, 
0000000, limit 
dl=0x0000ffff, 
0000000, limit 
dl=0x00000000, 
0000000, limit 
dl=0x00000000, 
0000000, limit 
dl=0x00000000, 
0000000, limit 
dl=0x00000000, 
0000000, 


limit 


dl=0x0000ffff, 
limit=0x17 


valid=1 


=0x00000000, 


valid=1 


SOREF EERESELE; 


valid=1 


=0x00000000, 


valid=1 


=0x00000000, 


valid=1 


=0x00000000, 


valid=1 


=0x00000000, 
dl=0x0000ffff, 


valid=1 
valid=1 


limit=0x3ff 


代码 清单 3-33 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


二 生生 


CR4 控 制 寄 存 器 的 第 5 位 是 PAE 功 能 


OPEen PAE 


cr4 
5 
eax 


下 一 步 将 临 


置 工作 。 


Read/Write, 


从 而 验证 程序 


Accessed 


Execute/Read, Non-Conforming, 


Read/Write, 


Read/Write, 


Read/Write, 


Read/Write, 


守 后 ， 


Accessed 


Accessed 


Accessed 


Accessed 


它们 的 段 基 地 址 和 上 段 限 长 丝 
)， 而 代码 段 寄 存 器 CS 依然 运行 在 保护 模式 下 ， 其 段 基地 址 和 段 限 长 仍然 有 效 。 
续 执 行 I[A-32e 模 式 的 切换 程序 ， 代码 清单 3-33 通 


过 置 位 CR4 控 制 寄存 器 的 PAE 标 志 位 ,开启 物理 


的 标志 位 ， 


代码 清单 3-34 第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


和 


mov eax, 
mov cr3, 


在 向 保护 模式 切换 的 过 程 中 未 开 


load 


Ox90000 
eax 


页 机 制 重新 构造 页 表 结构 。 


按照 官方 提供 8 


模式 切换 步 又， 当 页 目录 基 


GT3 


= 
可 


启 分 页 机 


IA32_EFER 寄 存 器 的 LME 标 志 位 激活 IA-32e 模 式 ， 


置 位 该 标志 位 可 开启 PAE 。 当 开 启 PAE 功 能 口 
时 页 目录 的 首 地址 设置 到 CR3 控 制 寄存 器 中 。 代 码 清单 3-34 完 成 了 CR3 控 制 寄 存 器 的 设 


判 ， 便 是 考虑 到 稍 后 的 IA-32e 模 式 切换 过 程 必须 关闭 分 


地 址 已 加 载 到 CR3 控 制 寄存 器 ， 接 下 来 训 


ti 可 通过 置 位 


完整 程序 实现 如 代码 清单 3-35 所 示 。 
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代码 清单 3-35 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


;======= enable long-mode 


mov ecx, 0C0000080n ;IA32_EFER 
rdmsr 

bts eax 8 

wrmsr 


IA32_EFER 寄 存 器 位 于 MSR 寄 存 器 组 内 , 它 的 第 8 位 是 LME 标 志 位 。 为 了 操作 IA32_EFER 寄 存 器 ， 
必须 借助 特殊 汇编 指令 RDMSR/WRMSR。 以 下 是 对 RDMSR 和 wRMSR 指 令 的 概括 描述 。 
口 借助 RDMSR/WRMSR 指 令 可 以 访问 64 位 的 MSR 寄 存 器 。 在 访问 MSR 寄 存 器 前 ， 必 须 向 ECX 寄 存 
器 〈 在 64 位 模式 下 ，RCX 寄 存 器 的 高 32 位 被 忽略 ) 传人 寄存 器 地 址 。 而 目标 MSR 寄 存 器 则 是 
1EDX:EAX 组 成 的 64 位 寄存 器 代表 ， 其 中 的 EDX 寄 存 器 保存 MSR 寄 存 器 的 高 32 位 ，EAX 寄 存 
器 保存 低 32 位 。( 在 64 位 模式 下 ，RAX 和 RDX 寄 存 器 的 高 32 位 均 为 零 。 ) 
口 RDMSR 与 WRMSR 指 令 必须 在 0 特权 级 或 实 模式 下 执行 。 在 使 用 这 两 条 指令 之 前 , 应 该 使 用 cPUID 
上 邻 〈 CPUID.01h:EDX[5] = 1) 来 检测 处 理 需 是 否 支 持 MSR 寄 存 需 组。 
最 后 再 使 能 分 页 机 制 ( 置 位 CR0 控 制 寄 存 器 的 PG 标 志 位 )， 就 完成 了 IA-32e 模 式 的 切换 工作 。 代 
码 清单 3-36 是 CR0 寄 存 器 的 操作 代码 ， 保 险 起 见 ， 这 里 再 次 使 能 了 保护 模式 ( 置 位 PE 标志 位 )。 


代码 清单 3-36 ”第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 


;======= open PE and paging 


mov eax, cr0 
bts eax, 0 
bts eax, 3 
mov cr0, eax 


至 此 ， 处 理 器 进入 IA-32e 模 式 。 但 是 处 理 器 目前 正在 执行 保护 模式 的 程序 ， 这 种 状态 叫 作 兼 
容 模 式 (Compatibility Mode )， 即 运行 在 IA-32e 模 式 (64 位 模式 ) 下 的 32 位 模式 程序 。 若 想 真 正 
运行 在 IA-32e 模 式 , 还 需要 一 条 跨 段 跳 转 /调用 指令 将 CS 段 寄存 器 的 值 更 新 为 IA-32e 模 式 的 代码 段 
描述 符 。 


3.2.4 从 Loader 跳 转 到 内 核 程 序 


经 过 上 面 的 精心 准备 后 ， 此 刻 仅 需 一 条 远 跳 转 / 调 用 指令 ， 便 可 切换 到 IA-32e 模 式 。 这 条 指令 与 实 
模式 切换 至 保护 模式 的 远 跳 转 / 调 用 指令 用 法 相同 ， 必 须 明 确 指定 跳 转 目 标的 自选 择 子 和 有 段 内 偏 移 地 
址 ， 代 码 清 单 3-37 是 详细 跳 转 代码 。 

代码 清单 3-37 第 3 章 \ 程 序 \ 程 序 3-4\loader.asm 
jmp SelectorCode64:0ffsetOfKernelFile 

执行 这 条 远 跳 转 指 令 后 ， 随 即 进入 64 位 IA-32e 模 式 。 由 于 目前 还 未 编写 内 核 程 序 ， 和 暂且 使 用 假 程 
序 文件 kernel.bin 代 替 。 
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开启 Bochs 虚 拟 机 ,使 用 pb 命令 在 物理 地 址 0x100000 处 设置 一 个 断 点 ， es 


使 用 c 命 令 运行 虚拟 


机 。 当 处 理 器 进入 IA-32e 模 式 ， 进 而 跳 转 至 地 址 0x100000 处 执行 内 核 程 序 时 ， 
到 终端 命令 行 ， 乡 示 的 信息 如 下 : 


发 并 显 


将 会 触发 断 点 并 进入 


00025008363i[BXVGA ] VBE enabling x 1440, y 900, bpp 32, 5184000 bytes visible 

(0) Breakpoint 1, Ox0000000000100000 in ?? () 

Next at t=25009439 

(0) [Ox000000100000] 0008:0000000000100000 (unk. ctxt): mov ax, 0x0010 
66b81000 


<BbOChS 3 


在 触发 断 点 进入 终端 命令 行 时 ，Bochs 虚 拟 机 的 界 
用 BIOS 


j 窗 口 尺 寸 也 相继 发 生变 化 ， 这 是 因为 此 前 使 
! 断 服务 程序 INT 10h 设 置 的 显示 模式 已 经 生效 。 日 志 内 容 里 的 字符 串 VBE 


enablingX1440， 


bpp 32，5184000 bytes visible 已 经 摘 述 了 虚拟 机 界 国 
等 信息 。 


y 900, 窗口 的 显 


可 见 内 存 容 量 


示 分 辨 率 、 颜 色 深 度 、 
读者 可 以 参考 第 7 章 关 于 VBE 规 范 的 知识 自行 设置 显示 模式 。 


接 下 来 ， 向 终端 命令 行 输入 sreg 命 令 查看 各 个 段 寄存 器 的 状态 ， 详 细 的 段 寄 存 器 状态 信息 如 下 : 


<bochs:3> sreg 


es:0x0010, dh=0x00009300, dl=0x00000000,，valid=1 

Data segment, base=0x00000000, limit=0x00000000, Read/Write, 
cs:0x0008, dh=0x00209900, dl=0x00000000,，valid=1 

Code segment, base=0x00000000, limit=0x00000000, Execute-Only, 
Accessed, 64-bit 
ss:0x0010, dh=0x00009300, dl=0x00000000，, valigd=1 

Data segment, base=0x00000000, limit=0x00000000, Read/Write, 
ds:0x0010, dh=0x00009300, dl=0x00000000,， valigd=1 

Data segment, base=0x00000000, limit=0x00000000, Read/Write, 
fs:0x0010, dh=0x00009300, dl=0x00000000,， valid=1 

Data segment, base=0x00000000, limit=0x00000000, Read/Write, 
gs:0x0010, dh=0x00009300, dl=0x00000000,， valigd=1 

Data segment, base=0x00000000, limit=0x00000000, Read/Write, 
ldtr:0x0000, dh=0x00008200, dl=0x0000ffff, valid=1 
tr:0x0000, dh=0x000081b00, dl=0x0000ffff, valid=1 


gdtr:base=0x0000000000010060,， 
idtr:base=0x0000000000000000, 


从 这 段 信息 可 以 看 出 ， 处 到 
跳 转 后 的 代码 段 寄存 器 CS， 它 也 运行 在 IA-32e 模 式 下 。 
出 虚拟 机 。 下 面 是 虚拟 机 在 退出 过 


再 向 终端 命令 行 


limit=0x17 
limit=0x3ff 


器 的 所 有 段 寄 存 器 均 被 赋值 为 IA-32e 模 式 的 段 描述 符 ， 特 别 


输入 命令 a 退 


寺 程 中 


Accessed 


Non-Conforming, 


Accessed 


Accessed 


Accessed 


Accessed 


显示 的 日 志 信 息 ， 其 中 的 字 


符 串 CPU is in long mode (active) ) 已 清楚 符 表 明 处 理 需 当前 正 运 云 行 在 长 模式 ， 并 处 于 激活 状态 。 


而 且 ， 所 有 通用 寄存 器 也 从 32 位 扩展 为 64 位 ， 读 者 还 可 以 通过 其 他 寄存 器 
式 的 有 效 性 ; 
<bochs:3> qa 
00020848011i[ ] dbg: Quit 
00020848011i[CPU0 ] CPU is in long mode (active) 
00020848011i[CPU0 ] CS.mode = 64 bit 
00020848011i[CPU0 ] SS.mode = 64 bit 
00020848011i[CPU0 ] EFER = 0x00000500 
00020848011i[CPU0 ] | RAX=00000000e0000011 RBX=0000000000000000 
00020848011i[CPU0 ] | RCX=00000000c0000080 RDX=0000000000000000 


的 标志 位 状态 验证 IA-32e 模 
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00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
00020848011i [CPUO 
(0) .[20848011 
(Ox0000000000100047) 
00020848011i [CMOS 
00020848011i [XGUI 
00020848011i[SIM 


伴随 着 Loader 引 导 加 载 程序 最 后 一 条 指令 ( 远 跳 转 指 令 ) 的 执行 ， 


] [Ox000000100000] 


RSP=0000000000007e00 
RSI=000000000000804c 
R8=0000000000000000 
R10=0000000000000000 
R12=0000000000000000 
R14=0000000000000000 
IOPL=0 id vip vif ac 


SEG sltr(index|tilrp 
CS:0008( 0001| 01 
DS:00T0( 0002. :0d 
SS:0010( 0002| 0| 
ES:0010( 0002| 01 
FS:0010( 0002| 0| 


GS:0010( 0002| 01 


RIP=0000000000100000 


PA 
Last time is 143202429 
Exit 


RBP=00000000000008ea 
RDI=0000000000009700 

R9=0000000000000000 
R11=0000000000000000 
R13=0000000000000000 
R15=0000000000000000 


0 


0) 


base limit 
00000000 00000000 
00000000 00000000 
00000000 00000000 
00000000 00000000 
00000000 00000000 
00000000 00000000 


口 口 口 口 口 口 上 


MSR_FS_BASE:0000000000000000 
MSR_GS_BASE:0000000000000000 


(0000000000100000) 
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CRO=0xe0000011 CR2=0x0000000000000000 
CR3=0x00090000 CR4=0x00000020 
0008:0000000000100000 (unk. ctxt): 


(Tue May 9 L6339 


quit_sim called with exit code 0 
[root@localhost bochs-2.6.8]# 


D 


ee 


2015) 


jnle .+69 


处 理 需 的 控制 权 就 移交 到 了 内 


核 程序 手 上 。 此 刻 ，Loader 引 导 加 载 程序 已 完成 了 它 的 使 命 , 其 占用 的 内 存 空 间 可 以 释放 或 另 作 他 用 。 


目前 系统 虽 已 进入 IA-32e 模 式 ， 但 这 只 是 临时 中 转 模式 ， 接 下 来 的 内 核 程序 将 会 


IA-32e 模 式 的 段 结 构 和 页 表 结 构 。 


开始 ! 


通过 本 章 的 学 习 ， 


系统 重新 创建 


相信 读者 收获 颇 多 。 下 面 将 进入 内 核 程 序 的 开发 环节 。 一 个 全 新 的 冒险 即将 


经 过 BootLoader 引 导 加 载 程序 的 洗礼 后 ， 现 在 正式 进入 系统 内 核 程序 的 研发 环节 ， 本 章 将 会 把 系 
统 内 核 各 个 部 分 的 基础 功能 展现 在 读者 面前 。 当 读者 了 解 系 统 内 核 的 基础 功能 后 ， 高 级 篇 再 对 这 部 分 
内 容 进行 结构 化 和 深入 化 。 

1 于 本 音 内 容 仍 然 涉 及 人 处理 器 体系 结构 、 硬 件 外 设 以 及 编译 链接 的 相关 知识 ， 因 此 读者 可 以 结合 
第 6 章 、 第 7 章 和 第 8 章 相关 内 容 并 行 阅读 。 同 时 ， 本 章 将 改 用 AT&T 格 式 的 GAS 汇编 语言 来 编写 操作 系 
统 ， 此 前 的 Intel 汇 编 语言 格式 将 在 BootLoader 引 导 启 动 程序 向 物理 平台 迁移 的 过 程 中 继续 使 用 。 


4.1 内核 执 行头 程序 


处 理 器 执行 完 Loader 引 导 加 载 程 序 的 最 后 一 条 远 跳 转 汇 编 代码 ( jmp SelectorCode64: 
OffsetOfKernelFile ) 后 ，Loader 引 导 加 载 程序 随即 将 处 理 器 的 控制 权 移 交 给 Kermel 内 核 程序 。 现 
在 ，Loader 引 导 加 载 程序 的 任务 已 全 部 完成 ， 此 后 不 会 再 使 用 它 ， 其 占用 的 内 存 空间 便 可 释放 掉 。 

处 理 需 把 控制 权 移交 给 Kernel 内 核 程 序 后 ，Kernel 内 核 程序 最 先 执行 的 是 内 核 执行 头 程序 。 内 核 
执行 头 程序 是 一 段 精心 设计 的 汇编 代码 ， 而 且 必 须 借助 特殊 的 编译 链接 方法 才能 得 到 最 先 执行 。 下 面 
就 让 我 们 来 看 看 内 核 执 行头 程序 的 原理 和 实现 。 


4.1.1 什么 是 内 核 执 行头 程序 


所 谓 内 核 执 行头 程序 ， 其 实 是 内 核 程序 中 的 一 小 段 汇编 代码 。 当 Loader 引 导 加 载 程序 移交 控制 权 
后 ， 处 理 器 便 会 执行 Kernel 内 核 程 序 的 这 段 代码 。 内 核 执 行头 程序 负责 为 操作 系统 创建 段 结构 和 页 表 
结构 、 设 置 菜 些 结构 的 默认 处 理 函 数 、 配 置 关键 寄存 器 等 工作 。 在 完成 上 述 工 作 后 ,依然 要 借助 远 跳 
转 指 令 才能 进入 系统 内 核 主 程序 。 内 核 执 行头 程序 在 内 存 和 文件 中 的 位 置 如 图 4-1 所 示 ， 其 中 BootLoader 
引导 启动 程序 占用 了 0~1 MB 的 物理 地 址 空间 ， 而 内 核 程序 将 使 用 1 MB 以 上 的 物理 地 址 空间 。 
图 4-1 中 的 head.S 文 件 即 是 内 核 执 行头 程序 。 此 处 涉及 一 个 知识 点 ， 即 如 何 把 内 核 执 行头 程序 编译 
生成 到 整个 内 核 程序 文件 的 起 始 处 ? 

为 了 达到 这 一 目的 ， 我 们 必须 手动 编写 内 核 程序 的 链接 脚本 。 在 内 核 程序 的 链接 过 程 中 ， 链 接 器 
会 按照 链接 脚本 描述 的 地 址 空间 布局 ， 把 编译 好 的 各 个 程序 片段 填充 到 内 核 程 序 文件 中 。 本 系统 内 核 
程序 的 链接 脚本 名 为 kernellds， 详 细 的 链接 脚本 介绍 请 参见 第 8 章 相 关内 容 。 此 时 只 需 记 住 内 核 层 的 
起 始 线 性 地 址 0xffff800000000000 对 应 着 物理 地 址 0 处 ， 内 核 程序 的 起 始 线 性 地 址 位 于 
0xffff800000000000 + 0x100000 处 即 可 。 
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Kernel 
物理 内 存 
ee se eR 
BootLoader 
0 


图 4-1 ”内 核 执 行头 程序 的 位 置 图 


4.1.2 ”与 一 个 内 核 执 行头 程序 


根据 开发 Loader 引 导 加 载 程序 过 程 中 所 学 知识 ， 可 以 轻松 为 系统 内 核 创建 ( 仿 写 ) 出 各 个 描述 符 
与 段 结 构 信息 。 代 码 清单 4-1 是 本 系统 的 描述 符 表 和 上 段 结构 信息 定义 。 


代码 清单 4-1 第 4 章 \ 程 序 \ 程 序 4-1\kernel\head.S 


三 三 GDT_Table 


.Section .data 
.globl GDT_Table 


GDT_Table: 
.Guad 0x0000000000000000 /*0 NULL descriptor 00*/ 


.Guad 0x0020980000000000 /*1 KERNEL Code 64-bit Segment 08*/ 

.Guad 0x0000920000000000 /*2 KERNEL Data 64-bit Segment 10*/ 

.Guad 0x0020f80000000000 /*3 USER Code 64-bit Segment 18*/ 

.Guad 0x0000f20000000000 /*4 USER Data 64-bit Segment 20*/ 

.quad Ox00cf9a000000ffff /*5 KERNEL Code 32-bit Segment 28*/ 

.quad Ox00cf92000000f£fff /*6 KERNEL Data 32-bit Segment 30*/ 

在 证 于 开 1 0780 人 TSS (jmp one segment <7>) in long-mode 
1 2.8 -Bit 4O*y 
GDT_END : 


GDT_POINTER : 


GDT_LIMIT: .word GDT_END - GDT_Table - 1 
GDT_BASE: .quad GDT_Table 
//======= IDT_Table 


.globl IDT_Table 


A 立 - ~ 
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IDT_Table: 
yt ll Sl2;8;0 
IDT_END: 
IDT_POINTER: 
IDT_LIMIT: .Word IDT_END - IDT_Table - 1 
IDT_BASE: .Guad IDT_Table 
三 三 三 三 三 兰 TSS64_Table 
.globl TSS64_Table 


TSS64_Table: 
ETEL 1380 
TSS64_END: 


TSS64_POINTER : 
TSS64_LIMIT: 
TSS64_BASE: . 


这 段 程 序 将 全 局 描述 符 表 GDT 结 构 、 中 断 描 述 符 表 IDT 结 构 、 折 
的 数据 段 内 ， 其 中 的 汇编 伪 指 令 .section 定 义 段 名 为 .data,， 并 


各 个 段 描述 符 。 


不 仅 如 此 ， 代 码 清单 4-1 还 通 


TSS64_END - TSS64_Table 
TSS64_Table 


word 
Guad 


TSS64_Table， 以 使 这 三 个 标识 符 可 以 被 外 部 程序 引用 或 访问 。 伪 指令 .glob1l 的 
同时 ， 内 核 程 序 的 其 他 部 分 也 能 够 操作 


extern 关 键 字 ， 它 可 以 保证 在 本 程序 正常 配置 描述 符 表 项 的 


这 些 描述 符 表 项 。 比 较 盟 


型 的 操作 场景 有 ， 向 IDT 表 项 设置 中 


2 


的 任务 状态 段 信息 、 创 建 LDT 描 述 符 表 ( 本 系统 不 使 用 LDT 表 功能 ) 等 。 
各 描述 符 表 结构 准备 完毕 后 ， 还 需要 为 操作 系统 创建 并 初始 化 页 表 及 页 表 项 ， 请 继续 往 下 看 代码 


清单 4-2 O 
代码 清单 4-2 第 4 章 \ 程 序 \ 程 序 4-1\kernel\head.S 
//======= init page 
= le po ls) 
org 0x1000 
PML4E: 
quad 0x102007 
fi1ll 255,8%0 
quad 0x102007 
el: 2 
org 0x2000 
PDBFTE: 
cuad 0x103003 
ET S11;870 


FE 务 状态 段 TSS 结 构 放 在 内 核 程序 
目 手 动 配置 全 局 描述 符 表 GDT 内 的 


过 伪 指 令 .globl 来 修饰 标识 符 CDT_Table 、IDT_Table 、 


作用 相当 于 C 语 言 的 


断 / 异 常 处 理 函 数 、 保 存 / 还 原 各 个 进程 
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.Org V0x3000 


.Guad 0x000083 

.Guad 0x200083 

.Guad 0x400083 

.Guad 0x600083 

.Guad 0x800083 

.Guad 0xe0000083 jx05 00000%/ 
.Guad 0xe0200083 

.Guad 0xe0400083 

.Guad 0xe0600083 /*0x1000000*/ 
.Guad 0xe0800083 

.Guad 0xe0a00083 

.quad 0xe0c00083 

.quad 0xe0e00083 

十 焉 二 499,8,0 


在 64 位 的 IA-32e 模 式 下 ， 页 表 最 高 可 分 为 4 个 等 级 ， 每 个 页 表 项 由 原来 的 4B 扩 展 至 8B， 而 且 分 页 
机 制 除了 提供 4KB 大 小 的 物理 页 外 ， 还 提供 2MB 和 1 GB 大 小 的 物理 页 ， 更 多 内 容 请 参见 第 6 章 中 关于 
IA-32e 模 式 的 页 管理 机 制 。 对 于 拥有 大 量 物 理 内 存 的 操作 系统 来 说 ， 使 用 4 KB 物理 页 可 能 会 导致 页 颗 
粒 过 于 零碎 ， 从 而 造成 频繁 的 物理 页 维护 工作 ， 而 采用 2 MB 的 物理 页 也 许 会 比 4 KB 的 物理 页 更 合理 
一 此 

本 段 程序 借助 伪 指 令 .org 来 固定 各 个 页 表 的 起 始 地 址 ， 并 使 用 伪 指 令 .align 将 对 齐 标准 设置 
为 8 B。 以 页 目录 ( 顶层 页 表 ) 为 例 ， 使 用 代码 .org 0x1000 定 位 页 目录 后 ， 此 页 表 便 位 于 内 核 执 
行头 程序 起 始 地 址 0x1000 偏 移 处 ， 然 后 链接 器 再 根据 链接 脚本 的 描述 ， 将 内 核 执 行头 程序 的 起 始 线 
性 地 址 设置 在 0xffff800000000000 + 0x100000 地 址 处 ， 因 此 推算 出 页 目录 的 起 始 线性 地 址 位 
于 0xffff 800000100000+ 0x1000 = 0xffff800000101000 处 。 此 页 表 将 线性 地 址 0 和 
0xffff800000000000 映 射 为 同一 物理 页 以 方便 页 表 切 换 ， 即 程序 在 配置 页 表 前 运行 于 线性 地 址 
0x100000 附 近 ， 经 过 跳 转 后 运行 于 线性 地 址 0xffff800000000000 附 近 。 

代码 清单 4-2 将 前 10 MB 物理 内 存 分 别 映射 到 线性 地 址 0 处 和 oxffff800000000000 处 ， 接 着 把 物 
理 地 址 0xe0000000 开 始 的 16 MB 内 存 映 射 到 线性 地 址 0xa00000 人 处 和 0xffff800000a00000 处 , 最 后 
使 用 伪 指 令 .fil11 将 数值 0 填充 到 页 表 的 剩余 499 个 页 表 项 里 。 

系统 数据 结构 准备 就 绪 后 ， 处 理 器 将 执行 代码 清单 4-3 的 程序 ， 再 次 进行 LA-32e 模 式 的 初始 化 。 此 
次 使 用 的 绝 大 部 分 系统 数据 结构 将 始终 伴随 着 操作 系统 的 运行 。 


代码 清单 4-3 ”第 4 章 \ 程 序 \ 程 序 4-1\kernel\head.S 


.Section .text 


gb Start 


_start: 
mov $s0Ox10, Sax 
mov Sax, $ds 


x _ 立 - 
82 第 4 草 内核 层 
IOV Sax, gfS 
IOV Sax, $ss 
IOV $0Ox7E00, S$Sesp 
/ss===== load GDTR 
lgdt GDT_POINTER (%$rip) 
/Y= “LOad IDTR 
0 IDT_POINTER (S$rip) 
IOV $0xT0; Sax 
mov Sax, $ds 
mov Sax, Ses 
IOV Sax, gfS 
TOV Sax, Sgs 
mov Sax, $ss 
movga $0Ox7E00, S$rsp 
LSE ad Gr3 
movg sO0x101000, Srax 
movg SrAaxs Scr3 
movg switch_ seg (%rip), Srax 
pushqgq SOx08 
Pusha %rax 
lretqa 
£/ = OA Blt Ode Geode 
switch_ seg: 
.quad entry64 
entry64: 
movg $0Ox10, Srax 
movgd Srax, $ds 
movg Srax, Ses 
movga Srax, Sgs 
movgd Srax, $ss 
movd $sOxffff800000007E00, S$rsp /* rsp address */ 
movgd go_to_kernel (S$rip), Srax /* movgq address */ 
pushq $0x08 
pushq %rax 
lretqa 


go_to_kernel: 
.Guad 


在 GAS 编译 器 中 ， 使 用 标识 符 _start 作 为 程 


Start_Kernel 


序 的 默认 起 始 位 置 ， 同 时 还 要 使 用 伪 指 令 .glob1 对 


_start 标 识 符 加 以 修饰 。 如 玉 


warning: 


cannot find entry symbol _start; 


不 使 用 .glob1 修 饰 _start 标 识 符 的 话 ， 链 接 过 程 会 出 现 警 告 1d: 
defaulting to ffff800000100000。 
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这 段 程序 中 的 汇编 代码 1gat GDT_POINTER (S$rip) 采 用 的 是 RIP-Relative 寻 址 模式 , 这 是 为 IA-32e 
模式 新 引入 的 寻 址 方法 。 表 4-1 是 RIP-Relative 寻 址 模式 在 不 同 汇编 语言 格式 下 的 书写 格式 。 
表 4-1 RIP-Relative 寻 址 格式 表 
Intel 汇 编 语言 格式 AT&T 汇 编 语言 格式 


RIP-Relative 寻 址 [rip + displacement] displacement (%rip) 


表 中 的 displacement 是 一 个 有 符号 的 32 位 整数 值 , 而 目标 地 址 值 又 依赖 于 当前 的 RIP 寄 存 器 ( 指令 
§ 针 寄存 器 ) 那么 aispblacement 将 提供 RIP+2 GB 的 寻 址 范围 , 代码 1iqt IDT_POINTER (%rip) 同 理 。 

值得 注意 的 是 ，NASM 编 译 器 不 支持 [rip + displacement] 格 式 ， 解 决 办 法 是 用 关键 字 rel 修 饰 : 

mov rax, [rel tablel] ; rel 修 饰 后 面 跟 的 是 一 个 标识 符 地 址 

本 段 程 序 曾 多 次 使 用 1z*etd 代 码 来 进行 段 间 切换 ， 却 未 曾 使 用 代码 1jmp 或 1cal1， 这 是 因为 GAS 
编译 器 暂 不 支持 直接 远 跳 转 JMP/ 调 用 cALL 指 令 。 一 些 指 令 在 64 位 环境 下 是 不 可 用 的 ， 典 型 的 指令 有 
PUSH CS/DS/ES/SS 指 令 和 POP Ds/ES/Ss 指 令 ， 请 读者 在 编程 时 多 加 注意 。 


lcall 0x0018:0x00100000 ; 无 效 
ljmp 0x0018:0x00100000 ; 无 效 


因为 上 述 原因 ， 这 段 程序 只 能 借助 汇编 代码 1reta 来 进行 段 间 跳 转 ， 此 处 先 模仿 远 调 用 汇编 代码 
lcall 的 执行 过 程 ， 伪 造 了 程序 的 执行 现场 ， 并 结合 RIP-Relative 寻 址 模式 将 段 选择 子 和 上段 内 地 址 偏 移 
保存 到 栈 中 ， 然 后 执行 代码 1reta 恢 复 调用 现场 ， 即 返回 到 目标 代码 段 的 程序 地 址 中 。 此 处 借助 汇编 
代码 lretg 跳 转 到 模块 entry64 的 起 始 地 址 处 ， 从 而 完成 了 从 线性 地 址 0x100000 向 地 址 
0xffff800000100000 切 换 的 工作 。 

通过 这 种 方法 ， 内 核 执 行头 程序 最 终 跳 转 至 内 核 主 程序 Start_Kernel 函 数 中 。 在 内 核 编译 脚本 
Makefile 中 ， 以 下 指令 负责 编译 head.s 文 件 。 关 于 编译 脚本 的 详细 介绍 请 参见 第 8 章 的 相关 内 容 。 


代码 清单 4-4 ”第 4 章 \ 程 序 \ 程 序 4-1\kernel\Makefile 


head.o: head.s 
gcc -E head.s > head.s 
as --64 -o head.o head.s 


注意 ，head.S 文 件 的 后 缀 名 是 大 写字 母 s， 千 万 不 要 写成 小 写字 母 s! 
经 过 这 段 命令 编译 后 ， 生 成 的 是 编译 文件 ， 而 非 可 执行 程序 ， 还 必须 经 过 链接 才能 生成 可 以 执行 
的 程序 , 但 目前 仍 缺少 内 核 主 程序 Start_Kernel 函 数 , 这 使 得 内 核 执 行头 程序 无 法 完成 最 后 的 跳 转 。 


4.2 ”内核 主 程序 


内 核 主 程序 ， 或 称 内 核 主 函数 ， 相 当 于 应 用 程序 的 主 函 数 ， 它 与 主 函 数 的 不 同 之 处 在 于 ， 内 核 主 
程序 在 正常 情况 下 是 不 会 返回 的 。 因 为 内 核 执 行头 程序 没有 给 内 核 主 程序 提供 返回 地 址 ， 而 且 关 机 、 
重启 等 功能 也 并 非 是 在 内 核 主 程序 返回 的 过 程 里 实现 的 ， 所 以 没有 必要 让 内 核 主 程序 返 

内 核 主 程序 负责 调用 各 个 系统 模块 的 初始 化 函数 ， 在 这 些 模块 初始 化 结束 后 ， 它 会 创建 出 系统 的 
第 一 个 进程 init ， 并 将 控制 权 交 给 init 进 程 。 


加 


o 
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此 刻 的 内 核 主 程序 并 不 具备 任何 功能 ， 只 是 为 了 让 内 核 执 行头 程序 拥有 日 标 跳 转 地 址 而 已 。 代 码 
清单 4-5 是 start_Kernel 拯 数 的 程序 实现 。 
代码 清单 4-5 ”第 4 章 \ 程 序 \ 程 序 4-1\kernel\main.c 

void Start_Kernel (void) 


{ 
while(1) 


} 

日前 ， 这 个 内 核 主 程序 只 是 个 空 函数 ， 没 有 返回 地 址 ， 一旦 进入 将 保持 死 循环 状态 

在 编译 脚本 Makefile 中 ,使 用 代码 清单 4-6 所 示 的 指令 可 编译 main.c 文 件 、 生成 内 核 程序 字 。 详 细 解 
释 请 参见 第 8 章 关 于 编译 脚本 的 介绍 。 


代码 清单 4-6 ”第 4 章 \ 程 序 \ 程 序 4-1\kernel\Makefile 


main.o: main.c 
gcce -mcmodel=large -fno-builtin -m64 -c main.c 


这 上段 Makefile 脚 本 命令 负责 编译 main.c 文 件 ， 将 源 代码 文件 main.c 编 译 成 程序 片段 main.o， 随 后 再 
使 用 代码 清单 4-7 将 其 编译 成 可 执行 程序 。 


代码 清单 4-7 第 4 章 \ 程 序 \ 程 序 4-1\kernel\Makefile 


system: head.o main.o 
ld -b elf64-x86-64 -o system head.o main.o -T Kernel.lds 


这 个 脚本 命令 负责 将 编译 生成 的 main.o 文 件 与 head.o 文 件 链接 成 可 执行 程序 ， 并 取 名 为 system。 在 
整个 链接 过 程 中 会 使 用 到 链接 脚本 文件 kernel.lds。 

经 过 编译 后 生成 的 文件 system 依 然 不 是 最 终 的 内 核 程 序 ， 还 必须 再 使 用 代码 清单 4-8 的 命令 将 
system 文 件 中 的 二 进 制程 序 提取 出 来 。 


代码 清单 4-8 ”第 4 章 \ 程 序 \ 程 序 4-1\kernel\Makefile 


all: system 
objcopy -I elf64-X86-64 -S -R".eh frame" -R ".comment" -0O binary System kernel .bin 


此 段 Makefile 脚 本 命令 的 作用 是 剔除 system 程 序 里 多 余 的 段 信 息 ， 并 提取 出 二 进 制程 序 段 数据 
(包括 text 段 、data 段 以 及 bss 段 等 )。 

使 用 复制 命令 把 生成 的 内 核 程序 kernelbin 复 制 到 bootimg 虚 拟 软盘 镜像 文件 内 ， 便 可 启动 Bochs 
虚拟 机 观看 运行 效果 。 

由 于 目前 还 未 实现 屏幕 显示 功能 ， 以 至 于 虚拟 机 屏幕 仍然 是 黑色 的 ， 那 么 查看 RIP 寄 存 器 是 否 在 
ee 函数 中 的 死 循环 ， 将 是 个 不 错 的 验证 方法 。 
， 使 用 objaump 命 令 反 汇编 可 执行 程序 System， 以 取得 代码 while (1) ;的 线性 地 址 ， 详 细 反 
i 人 扩 令 0 

objdump -D system 


此 处 必须 特别 注意 ， 反 汇编 的 程序 文件 是 system， 而 非 kernel.bin 文 件 。 因 为 只 有 system 文 件 记 


Hr 
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录 着 内 核 程序 的 各 个 段 信息 ， 它 能 够 显示 出 程序 的 地 址 及 其 他 相关 信息 ; 而 kernelbin 文 件 只 保存 着 程 
序 的 机 器 码 ， 并 不 含有 任何 段 描 述 信息 ， 以 至 于 无 法 通过 该 文件 查询 出 程序 的 指令 地 址 。 以 下 是 反 汇 
编 system 文 件 的 部 分 信息 : 


ffff800000104000 <Start_Kernel>: 


££fff800000104000: 55 push srbp 
ffff800000104001: 48 89 e5 moV srSsD,， Srbp 
ffff800000104004: eb fe jmp ffff800000104004 <Start_Kernel+0x4> 


在 这 段 反 编译 信息 中 ， 汇 编 代 码 jmp ffff800000104004 一 行 便 是 whi1le 死 循环 语句 。 随 后 运行 
Bochs 虚 拟 机 , 再 向 终 端 命令 行 输入 r 命 令 查 看 通用 寄存 器 内 的 数据 , 以 下 是 各 通用 寄存 器 的 数据 信息 : 

^C00120987283i[ ] Ctrl-C detected in signal handler. 

Next at t=120987284 

(0) [Ox000000104004] 0008:ffff800000104004 (unk. ctxt): jmp .-2 (Oxffff800000104004) ; 

ebfe 

<bochs:2> r 

CPUO: 

rax: ffff8000_00104000 rcx: 00000000_c0000080 

rdx: 00000000_00000000 rbx: 00000000_00000000 

rsp: ffff8000_00007df8 rbp: ffff8000_00007gdf8 

rsi: 00000000_0000805e rdi: 00000000_0000a000 

r8 : 00000000_00000000 r9 : 00000000_00000000 

r10: 00000000_00000000 r11: 00000000_00000000 

r12: 00000000_00000000 r13: 00000000_00000000 

r14: 00000000_00000000 r15: 00000000_00000000 

rip: ffff8000_00104004 

eflags 0x00000002: id vip vif ac vm rf nt IOPL=0 of df if tf sf zf af pf cf 

<bochs:3> 


这 上段 查询 信息 中 的 rip: ffff8000_00104004 一 行 记录 着 RIP 寄 存 器 的 值 ， 该 值 与 上 文 反 编译 出 
的 代码 jmp ££££800000104004 描 述 的 地 址 相 一 至， 从 而 说 明 处 理 右 正在 不 停 执 行 此 条 JMP 指 令 。 同 
时 ， 在 按 下 Ctrl + C 键 进入 DBG 调 试 命令 行 时 ,日 志 信 息 [0x000000104004] 0008:ffff800000 
104004 (unk. ctxt): jmp .-2(0xffff800000104004) ; epfe 也 标明 正在 执行 指令 的 物理 地 
址 ( [0x000000104004] )、 线 性 地 址 ( 0008:ffff800000104004 )、 反 汇编 指令 ( jmp .-2 
(0xffff800000104004) ) 和 机 器 码 (ebfe ) 等 信息 。 

既然 内 核 执行 头 程序 已 经 跳 转 至 内 核 主 程序 ， 那 么 此 后 的 开发 可 使 用 汇编 语言 和 C 语 言 。 


4.3 ”屏幕 显示 


目前 ， 我 们 多 么 迫切 希望 能 在 屏幕 上 显示 出 一 些 信息 。 为 了 在 屏幕 上 显示 颜色 ， 则 必须 通过 帧 组 
冲 存储 器 来 完成 。 帧 缓冲 存储 器 ( Frame Buffer )， 简 称 帧 缓存 或 帧 存 ， 它 是 屏幕 显示 画面 的 一 个 内 存 
映 象 ， 帧 缓存 的 每 个 存储 单元 对 应 屏幕 上 的 一 个 像素 ， 整 个 帧 缓存 对 应 一 幅 帧 图 像 。 帧 缓存 的 特点 是 
可 对 每 个 像素 点 进行 操作 ,不仅 可 以 借助 它 在 屏幕 上 夯 出 色彩 ， 还 可 以 在 屏幕 上 用 像素 点 描绘 文字 及 
图 片 。 关 于 显示 芯片 的 知识 请 参见 第 7 章 VBE 内 容 的 介绍 。 

此 前 的 Loader 引 导 加 载 程序 曾经 设置 过 显示 芯片 的 显示 模式 ( 模式 号 : 0x180、 分 辨 率 : 1440x900、 


86 第 4 章 ”内 核 层 


颜色 深度 : 32 bit )， 而且 内 核 执 行头 程序 (head.S ) 还 将 帧 缓存 的 物理 基地 址 ( 0xe0000000 ) 映射 到 
线性 地 址 0xffff800000a00000 和 0xa00000 处 。 


4.3.1 


在 屏幕 上 显示 色彩 


在 向 帧 缓存 写 和 数据 前 , 还 必须 了 解 帧 缓存 的 格式 , 即 一 个 像素 点 能 够 显示 的 颜色 值 位 宽 , Loader 


引导 加 载 程序 设置 的 显示 模式 可 支持 32 位 颜色 深度 的 像素 点 ， 其 中 0~7 位 代表 蓝 颜色 ，8~15 位 代表 绿 
颜色 ，16~23 位 代表 红颜 色 ，24~31 位 是 保留 位 。 这 32 bit 位 值 可 以 组 成 16 M 种 不 同 的 颜色 ， 可 以 表现 


出 真实 的 色彩 。 


如 果 想 设置 屏幕 上 某 个 像素 点 的 颜色 ， 那么 必须 知道 这 个 点 在 


幕 原 点 的 偏 移 值 ， 随 后 才 可 在 偏 移 处 设置 此 像素 点 的 颜色 值 。 
本 系统 目前 配置 的 显示 模式 为 例 ， 其 屏幕 坐标 的 示意 图 如 图 4-2 所 示 。 


900 


掌握 上 述 理 论 知 识 后 ， 相 信 在 Start_Kernel 函 数 中 编写 一 段 程序 ， 让 


图 4-2 ”屏幕 坐标 示意 图 


屏幕 上 的 位 置 ， 并 计算 出 该 点 距 屏 


屏幕 的 坐标 原点 位 于 屏幕 的 左上 角 ， 以 


1440 


是 什么 难事 。 请 看 代码 清单 4-9 
代码 清单 4-9 


void Start_Kernel (voidi) 


{ 


int *addr = 


! 的 内 容 。 


第 4 章 \ 程 序 \ 程 序 4-2\kernel\main.c 


(int *)0Oxffff800000a00000; 


int i;» 

for(i = 0 ;i<1440*20;i+t+) 

{ 
*((char *)addr+0)= (char) 0x00; 
(Char *)addril)=(char) Ox00 
(thar *) addrs2) el(c har) Oxft 
(char *)addrt3) = (char) 0x00s 
addr +=1; 


} 
EOTPMT. S00 


;i<1440*20;i++) 


开关 


| 


示 儿 条 色 带 将 不 再 


* ( (Char *)addr+0)= (char) 0x00; 
* ( (Char *)adaqr+1)=(Cchar)0Oxtfty; 
* ( (Char *)addr+2)=(char) 0x00; 
* ( (Char x)adqdqr+3)=(char)0x00: 
addr +=1; 

} 

for( = 0 ;i<1440*20;i++) 
*((char *)addr+0)= (char) Oxff; 
*((char *)addr+1)=(char) Ox00; 
*((char *)addr+2)=(char) Ox00; 
*((char *)addr+3)=(char) Ox00; 
addr +=1; 

} 

for(i = 0 ;i<1440*20;i++) 

{ 
*((char *)addr+0)= (char) Oxff; 
“tohar *)addrrr)= (tohar)0xtts 
*((char *)addr+2)=(char) Oxff; 
*((char *)addr+3)= (char) 0x00; 
addr +=1; 

} 

while(1) 


’ 


} 

这 上 段 程序 非常 简单 ， 首 先 必须 确定 帧 缓存 区 被 映射 的 线性 地 址 ， 此 处 是 0xffff800000a00000， 
由 于 页 表 映 射 的 关系 (模式 切换 时 的 同一 性 地 址 映射 )， 帧 缓存 区 地 址 空间 也 被 映射 到 线性 地 址 
0xa00000 处 。 然 后 ， 通 过 几 组 循环 语句 向 每 1440*20 个 像素 点 依次 写 人 红色 值 ( 0x00ff0000 )、 绿 
色 值 (0x0000ff00 )、 蓝 色 值 (0x000000f£f£ )、 白 色 值 (0x00ffffff )。 图 4-3 是 色 带 在 屏幕 上 的 显 
示 效 果 。 


图 4-3 RGB 颜色 带 图 
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特殊 说 明 在 设置 显示 模式 的 过 程 中 ， 有 个 寄存 器 位 可 以 在 设置 显示 模式 后 清除 屏幕 上 的 数据 。 
Loader 引 导 加 载 程序 已 将 该 寄存 器 位 置 位 ， 所 以 早 前 在 屏幕 上 显示 的 信息 皆 已 被 清除 。 

此 种 像素 点 填充 颜色 值 的 方法 ， 比 使 用 BIOS 的 INT 10h 中 断 服务 程序 更 加 方便 、 更 加 直接 有 效 。 
凭借 这 个 方法 ， 在 屏幕 上 显示 出 字符 是 指日可待 的 事情 。 


4.3.2 在 屏幕 上 显示 log 


经 过 4.3.1 节 对 像素 点 颜色 值 的 操作 练习 后 ， 仅 需 在 一 个 固定 像素 方块 内 用 像素 点 画 出 字符 ， 即 可 
实现 屏幕 上 的 字符 显示 功能 。 本 节 将 基于 ASCII 字 符 集 制作 出 一 个 ASCII 字 符 的 子 集 ， 其 中 包含 大 小 写 
字母 、 数 字 以 及 一 些 常 用 符号 ， 并 实现 一 个 简单 的 格式 输出 函数 color_printk， 通过 此 函数 可 在 屏 
幕 上 打 印 出 格式 化 的 彩色 字符 串 。 

1.ASCII 字 符 库 

ASCII 字 符 集 共 有 256 个 字符 ， 其 中 包括 字母 、 数 字 、 符 号 和 一 些 非 显 示 信 息 。 目 前 我 们 只 实现 一 

常用 的 显示 字符 ， 供 color_printk 函 数 在 屏幕 上 打印 即 可 。 图 4-4 以 数字 0 为 例 来 描绘 字符 与 像素 
点 之 间 的 映射 关系 。 


图 4-4 数字 0 的 字符 像素 映射 示意 图 


图 4-4 是 数字 0 和 一 个 8x16 的 像素 点 矩阵 ， 像 素 点 和 矩阵 中 的 黑色 像素 点 在 屏幕 上 映射 出 (组 成 ) 了 
数字 0， 它 们 是 数字 0 的 字体 颜色 。 只 要 根据 像素 点 矩阵 的 映射 原理 ， 计 算出 每 行 的 十 六 进 制 数值 ( 像 
素 点 矩阵 图 形 信 息 ， 请 参见 第 4 章 其 他 资料 中 的 ASCI 字 符 像素 位 图 .xlsx 文 件 )， 再 将 这 16 行 数值 组 合 
起 来 就 构成 了 字符 像素 位 图 。 代 码 清单 4-10 是 部 分 ASCI 字 符 像 素 位 图 定义 。 


代码 清单 4-10 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\font.h 


unsigned char font_ ascii[256] [16]= 


a 0040 4 

{0x02, 0x04, 0x08,0x08,0x10,0x10,0x10,0x10,0x10, Ox10, 0x10, 0x08, 0x08, 0x04, 0x02, 
0x00}, // "(! 

{0x80, 0x40, 0x20, 0x20, 0x10, 0x10, 0x10, 0x10, 0x10, 0x10, 0x10, 0x20, 0x20, 0x40, 0x80, 
Ox00}, // ')'! 
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{0x00, Ox00, 0x00, 0x00, 0x00, 0x10, 0x92, 0x54, 0x38, 0x54, 0x92, 0x10, 0x00, 0x00, 0x00, 
OKOOYS.. LH Re 

{0x00, Ox00, 0x00, 0x00, 0x00, 0x10, 0x10, 0x10, Oxfe, 0x10, 0x10, 0x10, 0x00, 0x00, 0x00, 
Ox00}, // '+! 

{0x00, Ox00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x18, 0x18, 0x08, 0x08, 
OXLOYS.. A 3 

{0x00, Ox00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, Oxfe, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 
0 区 900 和 YA 

{0x00, Ox00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,0x00,0x00, 0x00, 0x18, 0x18, 0x00, 
QO OF VA a 

{0x02, Ox02, 0x04, 0x04, 0x08, 0x08, 0x08, 0x10, Ox10, 0x20, 0x20, 0x40, 0x40, 0x40, 0x80, 
O080F, ZA 2 

{0x00, 0x18,;, 0x24, 0x24,0x42. 0x42; 0x42., Ox42, 0x42. 0x42, 0x42., 0x24, 0x24, 0XxX18,; 0Xx00, 
0x00}, //48 ON 

{0x00, Ox08, 0x18, 0x28, 0x08, 0x08, 0x08, 0x08, Ox08, 0x08, 0x08, 0x08, 0x08, 0x3e, 0x00, 
0x00}, // '1' 


这 上段 程序 中 的 每 对 大 括号 保存 着 一 个 字符 的 字符 像素 位 图 。 在 字符 的 显示 过 程 中 ， 只 需 把 位 图 中 
为 1 的 位 写 入 字体 颜色 值 ， 将 位 图 中 为 0 的 位 写 入 字体 背景 颜色 值 ， 便 可 将 该 字符 显示 在 屏幕 上 。 下 镍 
就 来 实现 彩色 字符 的 格式 化 显示 函数 color_printk。 

2. 显示 彩色 字符 函数 color_printk 的 实现 

在 实现 color_printk 函 数 前 ,需要 先 准 备 一 个 用 于 屏幕 信息 的 结构 体 struct position。 该 结 
构 体 记录 着 当前 屏幕 分 辨 素 、 字 符 光标 所 在 位 置 、 字 符 像素 矩阵 尺寸 、 帧 缓存 区 起 始 地 址 和 帧 缓存 区 
容量 大 小 。 代 码 清单 4-11 是 struct position 结 构 体 的 完整 定义 。 


代码 清单 4-11 第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.h 


struct position 


{ 


XResolution; 
YResolution; 


in 


(a 


in 
int XPosition; 
YPosition; 


0 a 


in 


XCharSize; 
YCharSize; 


开征 


in 


unsigned int * FB_addr; 
unsigned long FB_length; 
}Pos; 


这 个 结构 体 定义 于 头 文件 printk.h 内 , 将 这 个 头 文 件 和 其 他 相关 头 文件 包含 到 printk.c 文 件 中 。 代码 
清单 4-12 和 代码 清单 4-13 是 prinktc 和 printk.h 包 含 的 头 文件 信息 。 


代码 清单 4-12 第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


#include <stdarg.h> 
#include "printk.h" 
#include "lib.h" 

#include "linkage.h" 
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代码 清单 4-13 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.h 


#include <stdarg.h> 
#include "font.h" 
#include "linkage.h" 


此 处 请 特别 注意 头 文 件 stdarg.h， 它 是 GNU C 编 译 环境 自 带 的 头 文件 。 因 为 color_printk 函 数 支 
持 可 变 参数 ， 只 有 添加 引用 这 个 头 文件 后 ， 才 可 使 用 可 变 参 数 的 相关 功能 。 头 文件 lib.h 和 1linkage.h 分 
别 是 为 本 系统 编写 的 内 核 通用 库 函 数 、 宏 定义 以 及 一 些 常 用 的 函数 修饰 符 ， 感 兴趣 的 读者 可 自行 阅 
读 ， 本 书 只 对 开发 涉及 的 内 容 予 以 讲解 。 现 在 轮 到 本 节 的 主角 color_printk 函 数 登 场 了 ,请 看 代码 
清单 4-14。 


代码 清单 4-14 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


int color printk(unsigned int FRcolor,unsigned int BKcolor,const char * fmt,...) 


{ 


Tri yy, EO 

nt COunt, Ss OF 

int line = 0; 

va_list args; 

Va Start (args, fmtyy 

i = vesprintf(buf,fmt, args); 
va_end (args); 


在 这 段 程序 中 ， 函 数 参 数 中 的 省 略 号 、 关 键 字 va_1ist 、 关 键 字 va_start 以 及 关键 字 va_enqd 均 
属于 可 变 参数 的 内 容 ， 而 函数 vsprintf 则 用 于 解析 color_printk 函 数 提供 的 格式 化 字符 串 及 其 参 
数 ，vsprintf 困 数 会 将 格式 化 后 的 字符 串 结果 保存 到 一 个 4096 B 的 缓冲 区 buf， 并 返回 字符 串 长 度 。 
随后 ，color_printk 函 数 检索 buf 缓 冲 区 内 的 格式 化 字符 串 ， 从 中 找 出 \a、\b、\t 等 转 义 符 ， 并 在 
屏幕 打印 格式 化 字符 串 的 过 程 中 解析 这 些 转 义 符 。 这 个 检索 打印 过 程 会 首先 检测 \n 转 义 符 ， 检 索 程 序 
如 代码 清单 4-15。 


代码 清单 4-15 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


for(count = 0;count < i || line;count++) 


{ 


//// add \n \b \t 
if(line > 0) 
{ 

Count = 

goto Label_tab; 
} 


if((unsigned char)*(buf + count) == '\n') 


Pos.YPosition+t+; 
Pos.XPosition = 0; 


这 是 检索 打印 过 程 的 起 始 部 分 ,通过 foz 循 环 语句 检测 格式 化 后 的 字符 串 〈 逐个 字符 检测 )， 如 果 
发 现 某 个 待 显示 字符 是 \n 转 义 符 ， 则 将 光标 行 数 加 1， 列 数 设 置 为 0(。 和 否则 判断 待 显示 字符 是 否 为 \p 
转 义 符 ， 检 测 程序 如 代码 清单 4-16。 
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SU 


代码 清单 4-16 第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


else if((unsigned char)*(buf + count) == '\b') 
{ 
Pos .XPosition-—; 


if(Pos.XPosition < 0) 


{ 


Pos.XPosition = (Pos.XResolution / Pos.XCharSize - 1) * Pos.XCharSize; 
Pos.YPosition-—; 
if(Pos.YPosition < 0) 


Pos.YPosition 


} 


(Pos.YResolution / Pos.YCharSize - 1) 
putchar (Pos.FB_addr 


* Pos.YCharSize; 
,， Pos.XResolution , Pos.XPosition * Pos.XCharSize ， 
Pos.YPosition * Pos.YCharSize ， 

} 


FREOLOE »; PREOLGOr pe 
如 果 确 定 待 显 


’ 


示 字 符 是 \b 转 义 符 , 那么 调整 列 位 置 并 调用 putchar 函 数 打印 空格 符 来 履 盖 之 前 的 
字符 。 如 果 待 显示 字符 既 不 是 \n 转 义 符 ， 又 不 是 \b 转 义 符 ， 则 继续 判断 划 


其 是 否 为 \t 转 义 符 ,代码 清 
单 4-17 是 \t 转 义 符 的 处 理 代 码 。 
代码 清单 4-17 


第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


else if((unsigned char)*(buf + count) == '\t') 
{ 
line = 


((Pos.XPosition + 8) 
Label_tab: 


& ~(8 - 1)) - Pos.XPosition; 
line--; 
putchar (Pos.FB_addr , Pos.XResolution 


,， Pos.XPosition * Pos.XCharSize ， 
Pos.YPosition * Pos.YCharSize , FRcolor , BKcolor , ' '); 
Pos .XPositiont+; 
} 
如 果 确 认 待 : 


示 字 符 为 \t 转 义 符 ， 则 计算 当前 光标 距 下 一 个 制 表 位 需要 填充 的 空格 符 数量 , 将 计 
变量 1 ine 中 。 再 结合 


结果 保存 到 局 音 结合 


for 循 环 语句 和 i Ef 条 件 判断 语句 ,把 显示 位 置 调 整 到 下 一 个 制 
表 位 ， 并 使 用 空格 符 填补 调整 过 程 中 占用 的 字符 显示 空间 。 


代码 ((Pos.XPosition + 8) & ~(8 - 1)) - Pos.XPosition; 中 的 数值 8， 表示 一 个 制 表 
位 占用 8 个 显示 字符 。 


排除 待 显示 字符 是 \n、\b、\t 转 义 符 后 ， 那么 它 就 是 一 个 普通 的 字符 。 通 过 代码 清单 4-18 可 将 字 
符 串 有 序 显 示 在 屏幕 上 。 


代码 清单 4-18 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 
else 


{ 


putchar (Pos.FB_addr , Pos.XResolution , Pos.XPosition * Pos.XCharSize ， 
Pos.YPosition * Pos.YCharSize , FRcolor , BKcolor ， 
Pos .XPosition+t+; 


上 
这 里 使 用 putchar 函 数 将 字符 打印 在 屏幕 上 。 这 里 需要 给 putchar 函 数 传递 帧 缓存 线性 地 址 、 行 
分 辨 率 、 屏 幕 列 像素 点 位 置 、 


屏幕 行 像素 点 位 置 、 字 体 颜色 、 字 体 背景 色 和 字符 位 网 等 参数 。 


(unsigned char)* (buf + count)); 
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字符 显示 结束 后 ， 还 要 为 下 次 字符 显示 做 准备 ， 即 更 新 当前 字符 的 显示 位 置 ( 此 处 的 字符 显示 位 
置 可 理解 为 光标 位 置 )， 有 具体 实现 代码 如 代码 清单 4-19 所 示 。 
代码 清单 4-19 ”第 4 章 \ 程 序 \ 程 序 4-3\kemnel\printk.c 


if(Pos.XPosition >= (Pos.XResolution / Pos.XCharSize)) 


{ 


Pos.YPosition+t+; 
Pos.XPosition = 0; 


} 
if(Pos.YPosition >= (Pos.YResolution / Pos.YCharSize)) 
{ 

Pos.YPosition = 0; 


} 

这 是 for 循 环 语句 的 结尾 ， 这 上段 程序 负责 调整 光标 的 列 位 置 和 行 位 置 。 在 for 循 环 语句 内 曾 多 次 
调用 函数 putchar 在 屏幕 上 打印 字符 ， 该 函数 会 使 用 到 此 前 设计 的 ASCII 字 符 库 ， 此 函数 的 程序 实现 
如 代码 清单 4-20 所 示 。 


代码 清单 4-20 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


void putchar (unsigned int * fb,int Xsize,int x,int y,unsigned int FRcolor,unsigned int 
BKcolor,unsigned char font) 


{ 
03 0 
unsigned int * addr = NULL; 
unsigned char * fontp = NULL; 
int testval = 0; 
fontp se Eont asclilfont]: 


for(i = 0; i< 16;i++) 
{ 
addr = fb + Xsize * (y+i) +x; 
testval = 0x100; 
for(j = 0;j < 8;j ++) 
testval = testval >> 1; 
if(*fontp & testval) 
*addr = FRCcolor: 
else 
wddr .cs "BRKoGLlor 
adgdr++; 
; 
fontp++; 
} 
} 


在 这 段 程序 使 用 到 了 帧 缓存 区 首 地 址 ， 将 该 地 址 加 上 字符 首 像素 位 置 〈 首 像素 是 指 字符 像素 矩阵 
左上 角 第 一 个 像素 点 ) 的 偏 移 (xsize * ( y + i ) + x), 可 得 到 待 显 示 字 符 和 矩阵 的 起 始 线 性 地 
址 。 代 码 中 的 for 循 环 体 从 字符 首 像素 地 址 开始 ， 将 字体 颜色 和 背景 色 的 数值 按照 字符 位 图 的 描绘 ， 
填充 到 相应 的 线性 地 址 空间 中 。 
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接 下 来 ， 将 把 vsprintf 函 数 分 为 儿 个 程序 片段 ， 逐 个 诸 
vsprintf 困 数 的 和 人口 代码 ， 如 代码 清单 4-21 所 示 。 


代码 清单 4-21 第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


int vsprintf(char * buf,const char *fmt, va_list 
, 
Chars* “St 
int flags; 
int field width; 
int precision; 
int len,i; 
int qualifier; ty eb oe 
for(str = buf; *fmt; fmt++) 
二 直 《 坟 二 诈 才 二 党) 
{ 
*str++ = *fmt; 
continue; 
} 
fiaygs 0 
repeat: 
fmt++; 
switch(*fmt) 
{ 
case '-':flags |= LEFT; 
goto repeat 
case '+':flags |= PLUS; 
goto repeat 
case ' ':flags |= SPACE; 
goto repeat 
Case '#':flags |= SPECIAL; 
goto repeat 
case '0':flags |= ZEROPAD; 
goto repeat 


函数 vsprintf 依 然 借 助 for 循 环 语句 完成 格式 化 字符 串 的 解析 了 了 


F 解 格式 化 字符 串 的 解析 过 程 。 请 先 看 


args) 


for integer fields */ 


串 ， 如 果 字 符 不 为 '%' 就 认为 它 是 个 可 显示 字符 ， 直 接 将 之 存 


的 字符 串 格 式 。 
按照 字符 囊 格式 规定 ,符号 '$' 后 面 可 接 '-'、'+'、 
是 上 述 格式 符 ， 则 设置 标志 变量 flags 的 标志 位 〈 标 志 位 定义 


清单 4-22 中 的 程序 计算 出 数据 区 域 的 宽度 。 
代码 清单 4-22 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


/* get fielgd width */ 
fielqd width = -1; 
if(is_digit(*fmt)) 

field width = skip_atoi (&fmt); 


人 


[ 作 。 该 循环 体会 逐个 解析 字符 
人 缓冲 区 buf 中 ， 否 则 进一步 解析 其 后 


、'#' 、'0' 等 格式 符 ， 如 果 下 一 个 字符 


J 


在 printk.h 头 文件 内 )， 随 后 将 通过 代码 


else if(*fmt == '*') 
{ 
fmt++; 
field width = va_arg(args, int); 
if(fielgd width < 0) 
{ 
fielgd width = -field width; 
flLags |= LEFES 
} 
} 


这 部 分 程序 可 提取 出 后 续 字 符 串 中 的 数字 ， 并 将 其 转化 为 数值 以 表示 数据 区 域 的 宽度 。 如 果 下 一 
个 字符 不 是 数字 而 是 字符 '* ' ， 那 么 数据 区 域 的 宽度 将 由 可 变 参 数 提供 ， 根据 可 变 参 数值 亦 可 判断 数 
据 区 域 的 对 齐 显 示 方 式 ( 左 / 右 对 齐 )。 获 取 数 据 区 域 的 宽度 后 ， 下 一 步 还 要 提取 出 显示 数据 的 精度 ， 
实现 代码 如 代码 清单 4-23 所 示 。 


代码 清单 4-23 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


/* get the precision */ 
precision = -1; 

if(*fmt == '.') 

{ 


fmt++; 
if(is_digit(*fmt)) 

precision = skip_atoi(&fmt); 
else if(*fmt == '*') 
{ 

fmt++; 

precision = va_arg(args, int); 
} 
if(precision < 0) 

precision = 0; 


} 
如 果 数 据 区 域 的 宽度 后 面 跟 有 字符 ' .' ， 说 明 其 后 的 数值 是 显示 数据 的 精度 。 代 码 清单 4-23 采 用 
与 计算 数据 区 域 宽度 相同 的 方法 计算 出 显示 数据 的 精度 。 随 后 还 要 获取 显示 数据 的 规格 ， 具 体 程 序 实 
现 如 代码 清单 4-24 所 示 。 
代码 清单 4-24 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 
qualifier = -1; 


if(*fmt == 'h' || *fmt == '1' || *fmt == 'L' || *fmt == 'Z') 
{ 


qualifier = *fmt; 
fmt++; 


} 

代码 清单 4-24 用 于 检测 显示 数据 的 规格 ， 比 如 sl 格式 化 字符 串 中 的 字母 '1'， 就 表示 显示 数据 
的 规格 是 长 整 型 数 ( long 型 )。 经 过 逐个 格式 符 的 解析 ， 数 据 区 域 的 宽度 和 精度 等 信息 丝 已 获取 ， 
现在 将 遵照 这 些 信息 把 可 变 参数 格式 化 成 字符 串 ， 并 存 人 buf 缓 冲 区 内 。 从 代码 清单 4-25 开 始 将 进 
入 可 变 参 数 的 字符 串 转 化 过 程 ， 目 前 支持 的 格式 符 有 c、s、o、p、x、X、d、i、u、n、8 等 ,请 继 
续 往 下 看 。 
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代码 清单 4-25 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


switch(*fmt) 
' 
Case 'c': 
if(!(flags & LEFT)) 
while(--fielqd width > 0) 
*Sstr++ = " '; 
*str++ = (unsigned char)va_arg(args, int); 
while(--fielqd width > 0) 


SE 
break; 


如 果 匹 配 出 格式 符 ce， 那 么 程序 将 可 变 参 数 转 换 为 一 个 字符 ， 并 根据 数据 区 域 的 宽度 和 对 齐 方式 
填充 空格 符 ， 这 就 是 $c 格式 符 的 功能 。 有 了 字符 显示 功能 ， 则 字符 串 显示 功能 将 很 快 就 能 实现 ， 如 代 
码 清单 4-26 所 示 。 


代码 清单 4-26 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


Case 's': 
SE Va arg(args char *)s 
让 不 公 汪 久 沙 
Sr "NO 


len = strlen(s); 

f (precision < 0) 
precision = len; 
else if(len > precision) 
len = precision; 


2 


pp 


Ff(!1(flags & LEFT)) 
while(len < fielqd width--) 


*Strt++ = "' 
for(i = 0;i < len ;i++) 
*Strt++ = *S+t+; 
while(len < fielqd width--) 
让 本 


break; 

这 段 程序 实现 字符 串 显示 功能 ， 即 $s 格式 符 的 功能 。 整 个 显示 过 程 会 把 字符 串 的 长 度 与 显示 精度 

进行 比 对 ， 根 据 数据 区 域 的 宽度 和 精度 等 信息 截取 待 显 示 字 符 串 的 长 度 并 补 齐 空格 符 。 此 处 涉及 内 核 

通用 库 函 数 strlen， 本 节 稍 后 部 分 将 会 对 这 个 函数 的 程序 实现 予以 介绍 。 下 面 将 集中 介绍 数字 显示 
格式 符 ， 请 看 代码 清单 4-27。 


代码 清单 4-27 第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


Case 'o': 
if(gqualifier == '1') 
str = number (str,va_arg(args,unsigned long),8,fielgd width,precision,flags); 
else 
str = number (str,va_arg(args,unsigned int),8,field width,precision,flags); 
break; 


case 'p': 


_- 立 - 
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if(fielgd width == -1) 
{ 
field width = 2 * sizeof (void *); 
flags |= ZEROPAD; 
} 
str = number (str, (unsigned long)va arg(args,void *),16,field width,precision, flags); 
break; 
ase. YX 
flags |= SMALL; 
case -1 03 
if(gqualifier == '1') 
str = number (str,va_arg(args,unsigned long),16,field width,precision,flags); 
else 
str = number (str,va_arg(args,unsigned int),16,fielgd width,precision,flags); 
break; 
case 'd': 
case 'i': 
flags |= SIGN; 
Case 'u': 
if(gqualifier == '1') 
str = number(str,va arg(args,unsigned long),10,field width,precision,flags); 
else 
str = number (str,va_arg(args,unsigned int),10,fielgd width,precision,flags); 
break; 
这 部 分 程序 是 八进制 、 十 进 制 、 十 六 进 制 以 及 地 址 值 的 格式 化 显示 功能 ， 它 借助 函数 number 


实现 可 变 参 数 的 数字 格式 化 功能 ， 并 根据 各 个 格式 符 的 功能 置 位 相应 标志 位 供 number 函 数 使 用 。 
函数 vsprintf 的 最 后 一 部 分 代码 负责 格式 化 字符 串 的 扫尾 工作 ， 详 情 功能 实现 如 代码 清单 4-28 
所 示 。 


代码 清单 4-28 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


Case 'n': 

Tf.(HUaLLfTer ss= LY) 

{ 
long *ip = va_argl(args,long *); 
i Sr CEE, ~ buf}’y 

} 

else 
int *ip = va_arg (args,int *); 
“iD Er (EEE = BDUf)s 

;} 


break; 


*Str++ = “和 :7 
break; 


default: 
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*str++ = *fmt; 
else 
Fmt. ——; 
break; 


在 代码 清单 4-28 中 ， 格 式 符 sn 的 功能 是 ， 把 目前 已 格式 化 的 字符 串 长 度 返回 给 函数 的 调用 者 。 如 
果 格 式 化 字符 串 中 出 现 字符 ss， 则 把 第 一 个 格式 符 '#' 视 为 转 义 符 ， 经 过 格式 化 解析 后 ， 最 终 只 显示 
一 个 字符 sg。 如 果 在 格式 符 解 析 过 程 中 ， 出 现任 何不 支持 的 格式 符 ， 则 不 做 任何 处 理 ， 直 接 将 其 作为 
字符 串 输 出 到 buf 缓 冲 区 中 。 

函数 vsprintft 是 color_printk 的 主体 功能 函数 。 其 中 的 skip_atoi 函数 负责 将 数值 字母 转换 
成 整数 值 ，number 函 数 则 用 于 将 长 整 型 变量 值 转换 成 指定 进 制 规格 ( 由 参数 base 指 定 进 制 数 ) 的 字 
符 串 ， 并 由 precision 参 数 提供 显示 精度 值 。 下 面 就 来 讲解 这 两 个 函数 的 程序 实现 。 代 码 清单 4-29 给 
出 了 skip_atoi 困 数 的 突现 。 


代码 清单 4-29 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


int skip_atoi(const char **s) 


{ 


Tt 宇 08 


while (is_digit(**s)) 
i = i*10 + *((*s)++) - 05 
return i; 


} 
函数 skip_atoi 只 能 将 数值 字母 转换 为 整数 值 ， 因 此 这 个 函数 会 先 判 断 当 前 字符 是 否 为 数值 
字母 。 如 果 是 数值 字母 ， 则 将 当前 字符 转换 成 数值 (* ((*s)++) - '0')， 并 拼 入 已 转换 的 整数 
值 (ix10+*((*s)++) - '0') 代码 中 的 js_gigit 是 一 个 宏 (#define is_digit(c) ((c) 
>= '0' && (c) <= '9') )， 它 用 来 确认 当前 字符 是 数值 字母 。 
与 阴 数 skip_atoi 相 比 ，number 函 数 的 逻辑 相对 复杂 得 多 ， 它 可 将 整数 值 按照 指定 进 制 规格 转 
换 成 字符 串 。 代 码 清 单 4-30 是 number 也 数 的 详情 程序 实现 。 


代码 清单 4-30 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\printk.c 


static char * number (char * str, long num, int base, int size, int precision, int type) 


{ 


char c,sign,tmp[50]; 


const char *digits = "0123456789ABCDEFGHIJKLMNOPQORSTUVWXYZ"; 
6 
if (type&SMALL) digits = "0123456789abcdefghijklmopqrstuvwxyz"; 
if (type&LEFT) type &= ~ZEROPAD; 
if (base < 2 || base > 36) 
return 0; 
C = (type & ZEROPAD) ? '0' 
sign = 0; 


if (type&SIGN && num < 0) { 
sign="'-'; 
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num = -num; 
} else 
sign=(type & PLUS) ? '+' : ((type & SPACE) ? ' ' :; 0); 


if (sign) size--; 
if (type & SPECIAL) 


if (base == 16) size -= 2; 
else if (base == 8) size--; 
1 Fe Oy 
TE Ti :0) 


tmp[li++]="'0'; 
else while (num!=0) 
tmp[i++]=digits[do_div(num,base)]; 
if (i > precision) precision=i; 
size -= precision; 
if (!(type & (ZEROPAD + LEFT))) 
while(size-- > 0) 
SE 
if (sign) 
*str++ = sign; 
if (type & SPECIAL) 
i Base a6) 
hy 5 0 9 
else if (base==16) 
{ 
*str++ = '0'; 
SEE++ digiCs[33]; 
} 


if (!(type & LEFT)) 
while(size-- > 0) 
*Sstr++ = C; 


while(i < precision--) 


EE 0 
while(i-- > 0) 

*str++ = tmp[i]; 
while(size-- > 0) 

= 


return str; 


} 

不 管 number 孙 数 将 整数 值 转换 成 大 写字 母 还 是 小 写字 母 ， 它 最 高 支持 36 进 制 的 数值 转换 。 此 矣 
数 会 根据 参数 base 确 定 转换 的 进 制 规格 ， 而 代码 tmp [i++]=digits[do_div (num,base)] ;负责 将 
整数 值 转换 成 字符 串 ( 按 数 值 倒序 排列 ) 然后 再 将 tmp 数 组 中 的 字符 倒序 插入 到 显示 缓冲 区 。 以 下 是 
do_div 宏 的 代码 实现 : 


#define do_div(n,base) ({ \ 


int __res; \ 
dsm. ("diveo SSrex™ Ma (NTed” (re TO (nr (0 Or (BAase) 
_ res; }) 


do_div 宏 是 一 条 内 骸 汇 编 语 句 ， 它 借助 DIV 汇编 指令 将 整数 值 num 除 以 进 制 规格 base (在 DIV 汇 
编 指 令 中 ， 被 除数 由 RDX:RAX 寄 存 器 组 成 ， 由 于 num 变 量 是 个 8 B 的 长 整 型 变量 ， 因 此 RDX 寄 存 器 被 
赋值 为 0)， 计 算 结 果 的 余数 部 分 即 是 digits 数 组 的 下 标 索 引 值 。 
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es ek 看 句 改 为 _ asm__("divg $4":"=a" (n),"=d" (_ res):"0" (n), 
"1" (0),"r" (base));， 在 理 We 行 的 ， 但 在 编译 过 程 中 会 提示 错误 Error: Incorrect 
register `%Secx' used with “gq' suffix， 可 见 编译 器 为 寄存 器 约束 符 选 择 32 位 寄存 器 而 非 64 
位 。 读 者 在 内 散 64 位 汇编 指令 时 应 该 注意 约束 符 的 使 用 。 

在 vsprintf 函 数 里 还 涉及 一 个 内 核 通用 库 函 数 strlien， 它 同样 使 用 内 由 汇 编 语言 编写 。 代 码 清 
单 4-31 是 strlen 函 数 的 完整 代码 实现 。 


代码 清单 4-31 第 4 章 \ 程 序 \ 程 序 4-3\kernel\lib.h 


inline int strlen(char * String) 


{ 


register int _ res; 

_asm _ _ Volatile _ ( wel NN 
"repne \n\t" 
"scasb VONETY 
"notl $0 WN” 
"decl $0 SN 
we ES 


Du(Strinoy ya) OCOXEEFE 上 EE 


return __res; 


} 

也 数 strien 先 将 AL 寄 存 器 赋值 为 0， 随 后 借助 SCASB 汇 编 指 令 逐 字 节 扫描 string 字 符 串 ， 每 次 
扫描 都 会 与 AL 寄 存 器 进行 对 比 ， 并 根据 比 对 结果 置 位 相应 标示 位 ， 如 果 扫 描 的 数值 与 AL 寄 存 器 的 数 
值 相等 ( 同 为 0 值 ) ZF 标志 位 被 置 位 。 代 码 中 的 重复 指令 REPNE 会 一 直 重 复 执行 SCASB 指 令 , 直至 ECX 
Re 又 因为 ECX 寄 存 器 的 初始 值 是 负数 ( 0xffffffff )，REPNE 指 令 

结束 后 ，ECX 寄 存 器 依然 是 负 值 (ECX 寄 存 器 在 函数 执行 过 程 中 递减 ， 使 用 负 值 可 统计 出 扫描 次 
， 对 ECX 寄 存 器 取 反 减 1 后 得 到 字符 串 长 度 。 

以 上 这 些 内 容 是 color_printk 函 数 的 全 部 代码 实现 ， 该 函数 已 经 提供 了 几 种 纯色 的 颜色 安定 
义 : 和 白 、 黑 、 红 、 橙 、 黄 、 绿 、 蓝 、 靛 、 紫 等 。 下 面 就 在 屏幕 上 打印 字符 串 Hello World! 来 验证 color_ 
PiInEK 呈 | 函数 ， 请 看 代码 清单 4-32。 


代码 清单 4-32 ”第 4 章 \ 程 序 \ 程 序 4-3\kernel\main.c 


#include "lib.h" 
#include "printk.h" 


void Start_Kernel (void) 
int *adgdr = (int *)0xffff800000a00000: 
于 多 蕊 ;入 
Pos .XResolution 


Pos.YResolution 


Pos .XPosition 
Pos.YPosition 
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Pos.XCharSize = 8; 
二 业 


Pos.YCharSize 6 
Pos.FB_addr = (int *x)0xffff800000a00000 
Pos.FB_length = (Pos.XResolution * Pos.YResolution * 4) 


color_printk (YELLOW, BLACK, "Hello\t\t World!\n"); 
while(1) 


} 
这 段 程序 首先 配置 屏幕 的 分 辨 率 、 字 符 和 矩阵 的 尺寸 、 帧 缓冲 区 起 始 线 性 地 址 以 及 缓冲 区 长 度 等 信 
息 。 然 后 调用 color_printk 哨 数 以 黄色 字体 、 黑 色 背 景 显示 字符 串 "Hello\t\t World!\n"。 图 4-5 
是 程序 的 执行 效果 。 


4-5 ”color_printk 水 数 运行 效果 必 


现在 ， 我 们 的 操作 系统 已 经 拥有 显示 格式 化 字符 串 的 能 力 。 为 了 便于 调试 ， 接 下 来 应 该 实现 一 些 
辅助 调试 的 功能 一 一 系统 异常 捕获 功能 。 


4.4 系统 异常 


在 处 理 器 的 运行 过 程 中 ， 经 常会 由 于 执行 某 条 指令 、 访 问 内 存 空间 或 越权 访问 等 问题 ， 而 导致 程 
序 无 法 继续 执行 ， 此 时 处 理 器 会 暂停 当前 的 操作 转 而 执行 相应 的 错误 处 理 ， 这 个 错误 被 称 作 异 常 。 异 
党 有 的 是 可 恢复 的 ， 有 的 是 不 可 恢复 的 。 对 于 这 些 异 常 ， 操 作 系统 往往 会 提供 相应 的 处 理 策 略 和 日 志 
信息 ， 读 者 可 结合 第 6 章 关 于 门 描述 符 的 知识 并 行 阅读 。 下 面 就 从 异常 的 分 类 开始 讲 起 ， 逐 步 实现 系 
统 异常 捕获 功能 。 
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4.4.1 异常 的 分 类 


处 理 器 根据 异常 的 报告 方式 、 任 务 或 程序 是 否 可 继续 执行 ( 从 产生 异常 的 指令 开始 ) 等 因素 ,大 

体 上 会 将 异常 分 为 错误 、 陶 阱 、 终 止 三 类 。 这 三 类 异常 被 翻译 成 中 文 后 ， 从 字面 意思 很 难 区 分 和 理解 。 

下 面 将 从 异常 的 功能 方面 对 它们 进行 诠释 。( 请 参考 Intel 官 方 白 皮 书 Volume 3 的 6.5 节 。 ) 

口 错误 (fault) 。 错 误 是 一 种 可 被 修正 的 异常 。 只 要 错误 被 修正 ， 处 理 器 可 将 程序 或 任务 的 运行 
环境 还 原 至 异常 发 生前 (已 在 栈 中 保存 CS 和 EIP 寄 存 器 值 )， 并 重新 执行 产生 异常 的 指令 ， 也 
就 是 说 异常 的 返回 地 址 指向 产生 错误 的 指令 ， 而 不 是 其 后 的 位 置 。 

口 陷阱 (trap)。 陷 阱 异常 同样 允许 处 理 需 继续 执行 程序 或 任务 ， 只 不 过 处 理 需 会 跳 过 产生 异常 

的 指令 ， 即 陷阱 异常 的 返回 地 址 指向 诱发 陷阱 指令 之 后 的 地 址 。 

口 终止 (abort)。 终 止 异 常用 于 报告 非常 严重 的 错误 ， 它 往往 无 法 准确 提供 产生 异常 的 位 置 ， 
同时 也 不 允许 程序 或 任务 继续 执行 ， 典 型 的 终止 异常 有 硬件 错误 或 系统 表 存 在 不 合 逻 辑 、 非 
法 值 。 

综 上 所 述 ， 当 终止 异常 产生 后 ， 程 序 现场 不 可 恢复 ， 也 无 法 继续 执行 。 当 错误 异常 和 陷阱 异常 产 

生 后 ， 程 序 现场 可 以 恢复 并 继续 执行 ， 只 不 过 错误 异常 会 重新 执行 产生 异常 的 指令 ， 而 陷阱 异常 会 跳 

过 产生 异常 的 指令 。 表 4-2 描 述 了 Intel 处 理 器 目前 支持 的 异常 /中 断 。 


表 4-2 异常 /中 断 描述 表 


向 量 号 ” 助 记 符 异常 /中 断 描述 异常 /中 断 类 型 ” 错误 码 触发 源 
0 #DE 除法 错误 错误 No DIV 或 IDIV 指 令 
1 #DB 调试 异常 错误 / 陷 B No 仅 供 Intel 处 理 器 使 用 
2 一 NMI 中 断 中 断 No 不 可 屏蔽 中 断 
3 #BP 断 点 异常 陷 No INT 3 指令 
4 #OF 溢出 异常 陷阱 No INTO 指 令 
5 #BR 越界 异常 错误 No BOUND 指 令 
6 #UD 无 效 / 未 定义 的 机 器 码 错误 No UD2 指 令 或 保留 的 机 器 码 
/ #NM 设备 异常 ( FPU 不 存在 ) ”错误 No 浮 点 指令 WAIT/FWAIT 指 令 
8 #DF 双重 错误 终止 Yes ( Zero ) 任何 异常 、NMI 中 断 或 INTR 中 断 
= 协 处 理 器 段 越界 ( 保留) ”错误 No 浮 点 指令 
10 #TS 无 效 的 TSS 段 错误 Yes 访问 TSS 段 或 任务 切换 
11 #NP 段 不 存在 错误 Yes 加 载 段 寄存 器 或 访问 系统 段 
12 #SS SS 段 错 误 错误 Yes 栈 操作 或 加 载 栈 段 寄存 器 SS 
13 #GP 通用 保护 性 异常 错误 Yes 任何 内 存 引用 和 保护 检测 
14 #PF 页 错误 错误 Yes 任何 内 存 引 用 
15 ee Intel 保 留 ， 请 勿 使 用 = No = 
16 #MF x87 FPU 错 误 ( 计算 错误 ) 错误 No x87 FPU 浮 点 指令 或 WAIT/FWAIT 指 令 
17 #AC 对 齐 检测 错误 Yes(Zero) ”引用 内 存 中 的 任何 数据 


18 #MC 机 器 检测 终止 No 如 果 有 错误 码 ， 其 与 CPU 类 型 有 关 


( 续 ) 
向 量 号 ” 助 记 符 异常 /中 断 描述 异常 /中 断 类 型 ” 错误 码 触发 源 
19 #XM SIMD 浮 点 异常 错误 No SSE/SSE2/SSE3 浮 点 指令 
20 #VE 虚拟 化 异常 错误 No 违反 EPT 
21-31 一 Intel 保 留 ， 请 勿 使 用 = = 一 
32-255 用 户 自 定义 中 断 中 晰 = 外 部 中 断 或 执行 INTn 指 令 


误 码 ， 错 误 码 的 各 状态 位 代表 着 引起 异常 的 原因 。 


的 调试 过 程 中 。 那 么 现在 就 来 实现 系统 异常 捕获 功能 。 


4.4.2 ”系统 异常 处 理 〈 一 ) 


表 4-2 按 照 异 常 /中 断 的 向 量 号 升序 排列 ， 某 些 异 常 发 生 时 ， 会 根据 当时 处 理 器 的 运行 状态 生成 错 


如 果 操 作 系 统 能 够 捕获 处 理 器 异常 ， 将 会 给 今后 的 调试 工作 带 来 极 大 的 方便 ,尤其 是 在 物理 平台 


处 理 器 的 异常 处 理 是 个 复杂 的 过 程 ， 想 必 许 多 读者 都 没有 清晰 的 设计 思路 。 其 实 Intel 官 方 白 皮 


6.12.1 节 和 6.12.1.2 节 。 ) 


处理 右 采 用 类 似 汇编 指令 caLL 的 调用 方法 来 执行 异常 /中 断 处 型 


书 已 经 对 处 理 器 的 异常 处 理 过 程 作出 了 详尽 的 描述 。( 请 参考 Intel 官 方 白 皮 书 Volume 3 的 6.12 节 、 


LE 程序 。 当 处理 屁 捕 获 到 异常 /中 断 


时 ， 便 会 根据 异常 /中 断 向 量 号 ( Interrupt Vector ) 从 中 断 描述 符 表 IDT 索 引出 对 应 的 门 描述 符 ， 再 由 门 


到 一 个 中 断 门 或 陷阱 门 ， 处 理 融 将 会 


描述 符 定位 到 处 理 程序 的 位 置 。 如 果 向 量 号 索引 


像 执行 CALL 指 令 


访问 调用 门 一 般 , 去 执行 异常 /中 断 处 理 程序 。 如 果 向 量 号 索引 到 一 个 任务 门 , 处 理 器 将 发 生 任务 切换 ， 


转 而 执行 异常 任务 或 中 断 任务 ， 这 个 过 程 就 像 执行 CALL 指 令 访问 调用 任务 门 一 样 。 
口 异常 /中 断 的 处 理 步骤 。 图 4-6 描 述 了 处 理 帮 执 行 中 断 /异常 处 理 程序 的 过 程 。 处 更 


E 侣 会 根据 中 靳 / 异 


常 向 量 号 从 中 断 描述 符 表 IDT 检 索 出 对 应 的 门 描述 符 (中断 门 或 陷阱 门 ，Interupt or Trap Gate )， 并 


读 取 门 描述 符 保存 的 段 选 择 子 。 随 后 ， 从 GDT 或 LDT 描 述 符 表 中 检索 出 处 型 


程序 所 在 代码 段 ， 青 


根据 门 描述 符 记录 的 段 内 偏 移 量 ， 来 确定 中 断 /异常 处 理 程 序 的 入 口 地 址 。 


处 理 咒 在 执行 中 断 /异常 处 理 程序 时 ,会 检测 


寄存 器 的 特权 级 进行 比较 。 
@ 如 果 中 断 / 异 常 处 理 程序 的 特权 级 更 高 
是 栈 空 间 的 切换 过 程 。 


P 肠 / 蜡 常 处理 程 序 所 在 代码 段 的 特权 级 ， 并 与 代码 段 


， 则 会 在 中 断 /异常 处 理 程序 执行 前 切换 栈 空 间 ， 以 下 


(1) 处 理 器 会 从 任务 状态 段 TSS 中 取出 对 应 特权 级 的 栈 段 选择 子 和 栈 指 针 ， 并 将 它们 作为 中 
断 /异常 处 理 程序 的 栈 空间 进行 切换 。 在 栈 空间 切换 的 过 程 中 ， 处 理 咒 将 自动 把 切换 前 的 
SS 和 ESP 寄 存 器 值 压 人 中 断 /异常 处 理 程序 栈 。 
(2) 在 栈 空间 切换 的 过 程 中 ， 处 理 器 还 会 保存 被 中 断 程序 的 EFLAGS、CS 和 EIP 寄 存 器 值 到 中 


断 / 异 常 处 理 程序 栈 ( 如 图 4-7 所 示 


)。 


(3) 如 果 异 常会 产生 错误 码 ， 则 将 其 保存 在 异常 栈 内 ,位 于 EIP 寄 存 絮 之 后 。 
里 如 果 中 断 /异常 处 理 程序 的 特权 级 与 代码 段 寄存 器 的 特权 级 相等 。 

(1) 处 理 带 将 保存 被 中 断 程 序 的 EFLAGS、CS 和 EIP 寄 存 右 值 到 栈 中 ( 如 图 4-7 所 示 )。 

(2) 如 果 异 常会 产生 错误 码 ， 则 将 其 保存 在 异常 栈 内 ， 位 于 EIPP 寄 存 器 之 后 。 
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IDT 标 代码 段 
段 内 偏 移 地 址 中 断 处 理 程序 
中 断 向 量 号 一 > | 中断 门 或 陷阱 门 描述 符 s+) ”| 
段 选 择 子 > 
GDT 或 LDT 段 基 地 址 
| > 段 描述 符 


图 4-6 中断 调 用 过 程 


无 特权 级 变化 的 中 断 处 理 过程 
被 中 断 程序 的 栈 空 间 和 中 断 处 理 程序 的 栈 空 间 


| |* 一 进入 中 断 处 理 程序 前 的 ESP 位 置 
CS 
EIP 


< 一 进入 中 断 处 理 程序 后 的 ESP 位 置 


被 中 断 程序 的 栈 空间 


地 一 进入 中 断 处 理 程序 前 的 ESP 位 置 
ES 


S 
S 


进入 中 断 处 理 程序 后 的 ESP 位 置 一 ”| EmorCode | 
| | 


图 4-7 ”执行 中 断 /异常 处 理 程序 时 的 栈 切 换 操作 
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处 理 器 必须 借助 ITRET 指 令 才 能 从 异常 /中 断 处 理 程序 返回 。IRET 指 令 与 RET 指 令 极 其 相似 ， 只 


不 过 IRET 指 令 会 还 原 之 前 保存 的 EFLAGS 寄 存 器 值 。EFLAGS 寄 存 器 的 IOPL 标 志 位 只 有 在 
CPL=0 时 才 可 被 还 原 , 而 下 标志 位 只 有 在 CPL<=IOPL 时 才能 改变 。 如果 在 执行 处 理 程序 时 发 生 
过 栈 空间 切换 ， 那 么 执行 IRET 指 今 ) 
口 异常 /中 断 处 理 的 标志 位 使 用 。 当 处 理 器 穿 过 中 断 门 或 陷阱 门 执行 异常 /中 断 处 理 程序 时 ， 处 理 
位 TF 标志 位 ， 以 关闭 单 步 调试 功能 。( 处 理 器 还 会 复位 


器 会 在 标志 寄存 器 EFLAGS 和 人 栈 后 复 


和 4 切换 回 被 中 上 断 程序 栈 。 


VM、RF 和 NT 标志 位 。 ) 在 执行 IRET 指 令 的 过 程 中 ， 处 理 器 会 还 原 被 中 断 程序 的 标志 寄存 器 
EFLAGS， 进 而 相继 还 原 TF、VM、RF 和 NT 等 标志 位 。 
中 断 门 与 陷阱 门 的 不 同 之 处 在 于 执行 处 理 程序 时 对 IF 标志 位 (位 于 标志 寄存 器 EFLAGS 中 ) 


的 操作 。 


得 当 处 理 器 穿 过 中 断 门 执行 异常 /中 断 处 理 程 序 时 ， 处 理 器 将 复位 正 标志 位 ， 以 防止 其 他 中 断 
请 求 干 扰 异 常 /中 断 处 理 程 序 。 处 理 器 会 在 随后 执行 IRET 指 令 时 ， 将 栈 中 保存 的 EFLAGS 寄 
存 器 值 还 原 ， 进 而 置 位 正 标志 位 。 
量 当 处 理 器 穿 过 陷阱 门 执行 异常 /中 断 处 理 程序 时 ， 处 理 器 却 不 会 复位 IF 标志 位 。 
其 实 ， 中 断 和 异常 向 量 同 在 一 张 IDT 内 ， 只 是 它们 的 向 量 号 不 同 罢 了 。IDT 表 的 前 32 个 向 量 号 被 异 
常 占 用 ， 而 且 每 个 异常 的 向 量 号 固定 不 能 更 改 ， 从 向 量 号 32 开 始 被 中 断 处 理 程序 所 用 。 


1 于 内 核 启动 初期 非常 脆弱 ,也 不 具备 异常 处 理 能 力 , 那么 为 内 核 执 行头 程序 加 入 异常 /中 断 的 捕 


获 功 能 也 是 必要 的 ， 此 处 只 要 简要 提示 发 4 


显示 Unknown interrupt or fault at 


时 将 ignore_int 模 块 作为 所 有 异常 的 处 到 


程序 。 


E 异 常 便 可 ， 即 当 异 常 /中 断 发 生 时 执行 jgnore_int 模 块 ， 
RIP 提 示 信 息 。 代 码 清单 4-33 是 IDT 的 初始 化 模块 ， 此 处 暂 


代码 清单 4-33 ”第 4 章 \ 程 序 \ 程 序 4-4\kernel\head.S 


entry64: 

setup_IDT: 
Tead ignore_int (%$rip), 
movgd $s (0x08 << 16), 
movw Sdx, Sax 
movgd $ (0x8E00 << 32) ， 
addq bE Srax 
movil Sedx, Secx 
shrl S16 Secx 
shlqa $48, SIrICx 
addq sh Srax 
shrqa S32 Srdx 
leag IDT_Table (S$rip), 
IOV S256, SrcCx 

PO eet 
MoVvG Srax, (Srdi) 
movgd Srdx, 8 (Srdi) 
addq $0Ox10, Srdi 
dec SIrCx 


jne rp_sidt 


Srdx 
Srax 


SrcCx 


Srdi 
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模块 setup_IDT 负 责 初始 化 中 断 描 述 符 表 IDT 内 的 每 个 中 断 描述 符 ( 共 256 项 ， 每 项 占 16 B )。 它 
将 ignore_int 模 块 的 起 始 地 址 和 其 他 配置 信息 ， 有 序 地 格式 化 成 IA-32e 模 式 的 中 断 门 描述 符 结 构 信 
息 , 并 把 结构 信息 保存 到 RAX 寄 存 器 (结构 信息 的 低 8 字 节 ) 和 RDX 寄 存 器 (结构 信息 的 高 8 字 节 ) 中。 
最 后 借助 rp_siat 模 块 将 这 256 个 中 断 描述 符 项 统一 初始 化 。 

IDT 初 始 化 完毕 后 ， 我 们 还 需要 对 任务 状态 段 描述 符 TSS Descriptor 进 行 初始 化 。 代 码 清 单 4-34 是 
TSS Descriptor 的 初始 化 过 程 。 


代码 清单 4-34 第 4 章 \ 程 序 \ 程 序 4-4\kernel\head.S 


setup_TSS64: 


leag TSS64_Table(gsrip) ， Srdx 
XOorg Srax, Srax 

Xorg Pre SrcCx 

movg SOx89, Srax 

shlqg $40, Srax 

movil Sedx, Secx 

shrl $24, Secx 

shlqa $56, Srcx 

addq ob Srax 

Xorg Srcx, SC 

movil Sedx, Secx 

andl 生日 区 二 于 生生 开业， Secx 

shlqg $16, Sr 

addq SECX, Srax 

addq S103:; Srax 

leag GDT_Table (S$rip), Srdi 
movd Srax, 64 (Srdi) 

shrq S32 Srdx 

movg Srdx, 2 (SEd1) 

mov SOX40， Sax 

区 Sax 

movg go_to_kernel (gsrip) ， Srax /* movd address */ 


pushqa SOX08 
Pushd Srax 
lretqa 


go_to_kernel: 
.quad Start_Kernel 


这 部 分 程序 负责 初始 化 GDT (IA-32e 模 式 ) 内 的 TSS Descriptor， 并 通过 LTR 汇 编 指令 把 TSS 
Descriptor 的 选择 子 加 载 到 TR 寄 存 器 中 。 因 为 当前 内 核 程序 已 经 运行 于 0 特权 级 ， 即 使 产生 异常 也 不 
会 切换 任务 栈 ， 从 而 无 需 访问 TSS， 那 么 暂且 无 需 初 始 化 TSS。 也 就 是 说 ， 在 无 特权 级 变化 的 情况 
下 ， 即 使 不 加 载 TSS Descriptor 的 选择 子 到 TR 寄存 器 ， 异 常 仍 可 以 被 捕获 并 人 处理。 不 过 ， 在 实验 的 
时 候 还 是 要 多 加 谨慎 , 如 果 缺 少 TSS Descriptor 的 支持 , 最 好 小 心 为 妙 , 错误 的 操作 很 可 能 会 使 Bochs 
虚拟 机 显示 LTR: doesn't point to an available TSS dqescriptor! 日 志 信息 ， 甚 至 造成 
虚拟 机 崩 演 。 

接 下 来 将 实现 异常 /中 断 处 理 模 块 ijgnore_int ， 模 块 的 代码 实现 如 代码 清单 4-35 所 示 。 
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代码 清单 4-35 ”第 4 章 \ 程 序 \ 程 序 4-4\kernel\head.S 


和 ignore_int 


ignore_int: 


Ge 

Pusha Srax 

pushqga Srbx 

Pusha SrcCx 

pushqa Sd 

pushq $rbp 

pushqa SPEdE 

pushqa Srsi 

pushqa $Ir8 

pushqa $Ir9 

pushqa S$r10 

pushqa Sr11 

pushqa Sr12 

pushqa $Ir13 

pushqa Sr14 

pushqa Sr15 

movg Ses, Srax 

Pusha Srax 

movg $ds, Srax 

pushqa Srax 

movgq $0Ox10, Srax 

movgd Srax, $ds 

movg 第 Ses 

leaq int_msg (%$rip), Srax /* leaq get address */ 

pushqa Srax 

movg Srax, Srdx 

movgd sO0x00000000, Srsi 

movd SOx00ff0000， Srdi 

movga $0, Srax 

callqg color_printk 

addq $sOx8, Srsp 
Loop: 

jmp Loop 

Dopd Srax 

movgd SrA $ds 

Dopd Srax 

movgq Saxs Ses 

popg Sr15 

Popd Sr14 

popgq SIr13 

popgq Sr12 

popgq Sr1i1 


popg $r10 


4.4 系统 异常 107 


popg sr9 
popg Sr8 
Dopd Srsi 
Dopd Srdi 
popq S$rbp 
Dopd Srdx 
popgq Srcx 
Dopd Srbx 
Dopd Srax 
iretq 
int_msg: 


.asciz "Unknown interrupt or fault at RIP\nN" 


这 段 程 序 先 保存 各 个 寄存 器 值 ， 而 后 将 DS 和 ES 段 寄 存 器 设置 成 内 核 数据 段 ， 紧 接着 将 为 color_ 
printk 函 数 准备 参数 ， 并 采用 寄存 器 传递 方式 向 其 传递 参数 。 提 示 信 息 显 示 后 ， 再 执行 JMP 指 令 死 循 


汪 


环 在 ignore_int 模 块 里 。 
在 2.2.3 节 
模式 下 , 大 部 分 编译 器 采用 寄存 器 传递 参数 


已 经 介绍 过 寄存 器 传递 方式 ， 此 处 主要 针对 x64 模 式 下 的 参数 传递 做 补充 说 明 。 在 x64 


参数 按照 从 左 向 右 的 顺序 依次 是 RDI、 RSI、 RDX、RCX、 


R8、R9， 剩 余 参 数 使 用 内 存 传递 方式 ，RAX 放 置 函数 的 返回 值 ， 调 用 者 负责 平衡 栈 。 
使 用 obpjaump -D system 命 令 反 编译 代码 清单 4-3 中 的 system 文 件 (system 文 件 是 编译 时 生成 的 
中 间 文 件 ) 查看 color_printk 了 哺 数 的 参数 传递 过 程 。 以 下 几 段 代码 描述 了 整个 调用 过 程 。 这 里 暂时 


不 关注 color_printk 函 数 的 程序 实现 ， 


从 代码 清单 4-36 可 知 ，color_printk 函 数 的 和 人口 位 于 


0xffff800000105b61 地 址 处 ， 其 他 函数 在 调用 color_printk 国 数 时 都 从 此 地 址 进入 。 


代码 清单 4-36 ”第 4 章 \ 程 序 \ 程 序 4-4\kernel\system 


ffff800000105b61 <color_printk>: 


ffff8000001051b61: 3 


push S$rbp 


ffff800000105b62: 48 89 e5 mov Srsp, Srbp 

ffff800000106105: c9 leaved 

ffff800000106106: c3 retd 

如 Start_Kernel 了 国 数 中 的 代码 color_printk(YELLOW,BLACK, "Hello\t\t World!i\ n");， 代 


码 清单 4-37 是 其 部 分 反 汇编 程序 片段 。 


代码 清单 4-37 第 4 章 \ 程 序 \ 程 序 4-4\kernel\system 


ffff8000001047ac <Start_Kernel>: 
ffff8000001047ac: 535, 
ffff8000001047ad: 48 89 e5 


fff80000010497b : 48 ba 08 61 
fff800000104982 : 8:0 于 让 玉生 

fff800000104985 : be 00 00 00 
fff80000010498a: SE “00; 二 下 往生 
fff80000010498f : b8 00 00 00 
fff800000104994 : 48 b9 61 5b 
fff80000010499b : 80 下 三 让 


th Fh Eh Fh i Hh 
Fh Th Th Hh rE A 全 


push S$rbp 


mov Srsp, Srbp 
10.00. 00 mov $0Oxffff800000106108, Srdx 
00 mov $0Ox0, Sesi 
00 mov SOxffff00,g%edi 
00 mov SOx0, Seax 
10 00 00 mov $0Oxffff800000105b61, Srcx 
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ffff8000 


0010499e: fi alld “SICA 


在 这 段 反 汇编 程序 里 ， 黄 色 定 义 为 #define YELLOW 0x00ffff00，, 保存 于 EDI 寄 存 器 中 ; 黑色 


定义 为 #defi 
ffff8000001 


ne BLACK 0x00000000 ， 保 存 于 ESI 寄 存 器 中 ; color_printk 函 数 的 人 人 口 地 址 
05b61 记 录 在 RCX 寄 存 器 内 ， 随 后 使 用 汇编 代码 calla *%rcx 调 用 该 函数 ;字符 是 


Uv 


Hello\t\t World!\n 保 存在 0xffff800000106108 地 址 起 始 处 。 下 面 就 来 验证 地 址 0xffff 


80000010610 


代码 清单 4-38 


E 上 下 于 8000 
ffff8000 
ffff8000 
ffff8000 
ffff8000 
ffff8000 
ffff8000 
ffff8000 
ffff8000 
ffff8000 
ffff8000 


因为 这 段 程序 是 .rodata 数 据 段 ( 只 读数 据 段 )， 所 以 其 后 的 反 汇编 语句 是 不 正确 的 ， 不 能 盲目 
地 拿 来 进行 分 析 。 字 符 串 Hello\t\t World!\n 转 换 成 十 六 进 制 数值 ， 是 48h、65h、6ch、6ch、6 了 人、 
09h、09h、20h、57h、6fh、72h、6ch、64h、21h、0ah、00h， 这 与 上 面 的 数据 完全 吻合 ， 由 此 可 见地 
址 0oxffff800000106108 处 的 确保 存 着 待 显示 的 字符 串 。 


8 处 的 数据 ， 请 看 代码 清单 4-38。 

第 4 章 \ 程 序 \ 程 序 4-4\kernel\system 
00106108 <.rodata>: 
00106108: 48 rex.W 
00106109: 65 gs 
0010610a: 6c insb (Sdx) ,Ses: (S$rdi) 
0010610b: 6c insb (Sdx) ,Ses: (S$rdi) 
0010610c: 6f outsl %ds: (Srsi), (Sdx) 
0010610gd: 09 09 or Secx, (Srcx) 
0010610f: 2.08.57. “6E and g%dq1, 0x6f (Srdi) 
00106112 : 72 6c jb ffff800000106180 <_etext+0x79> 
00106114: 64 21 0a and Secx, Sfs: (Srdx) 
00106117: 00 30 add $dh, (Srax) 


经 过 此 番 分 析 后 ，ignore_int 模 块 调用 color_printk 函 数 的 谜团 也 相继 解 开 ， 即 使 用 RDI 寄 存 
器 保存 字体 颜色 ，RSI 寄 存 器 保存 背景 颜色 ，RDX 寄 存 器 保存 待 显示 的 字符 串 起 始 地 址 。 
为 了 验证 处 理 器 的 异常 捕获 效果 ， 特 在 Start_Kernel 函 数 中 加 入 代码 1 = 1/0; 来 触发 #DE ( 除 


代码 清单 4-39 
Volid Sta 


法 ) 异常 ， 代 码 清单 4.39 是 此 行 代 码 的 插入 位 置 。 


第 4 章 \ 程 序 \ 程 序 4-4\kernel\main.c 


rt_Kernel (void) 


注意 ， 由 于 此 处 插入 了 异常 的 触发 代码 ， 因 此 在 执行 Makefile 脚 本 文件 编译 程序 的 过 程 中 会 检测 
到 异常 代码 ， 进 而 显示 出 警告 信息 ， 详 细 编 泽 信 息 如 下 所 示 : 


[root@localhost kernel]# make 
gcc -E headq.S > head.s 


as --64 


-oO head.o head.s 


gcce -mcmodel=large -fno-builtin -m64 -c main.c 


main.c: 


In function 'Start_Kernel': 
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main.c 


:72: warning: division by zero 


gcc -mcmodel=large -fno-builtin -m64 -c printk.c 
ld -b elf64-x86-64 -z muldefs -o System head.o main.o printk.o -T kernel.lds 
objcopy -I elf64-x86-64 -S -R ".eh_ frame" -R ".comment" -0O binary System kernel .bin 


请 读者 放心 ,这 条 警告 信息 并 不 会 影响 程序 的 编译 链接 过 程 。 图 4-8 是 异常 捕获 程序 的 运行 效果 。 


FEEERET | 下 


图 4-8 异常/ 中断 日 志 显示 图 


和 预期 的 一 样 ， 在 屏幕 上 显示 了 一 行 字符 串 Unknown interrupt or fault at RIP。 在 小 试 


十 


F 刀 后 ， 接 下 来 将 为 操作 系统 正式 设计 一 款 异常 提示 信息 ， 请 读者 继续 往 下 看 。 


4.4.3 系统 异常 处 理 〈 二 ) 


参照 44 


SN 


.2 节 描 述 的 异常 /中 断 处 理 知识 和 处 理 器 异常 捕获 程序 实现 ， 本 节 依 然 先 初始 化 DT， 只 不 


过 此 次 已 为 各 异常 量 身 定 做 了 处 理 函 数 。 代 码 清单 4-40 是 各 异常 的 描述 符 定义 。 
代码 清单 4-40 ”第 4 章 \ 程 序 \ 程 序 4-5\kernel\trap.c 


void sys_vector_init() 


{ 
Se 
Se8 
Se 
Se 
Se 
Se 
Se 
Se 
Se 
Se 
Se 
Se 
Se 
Se 


t_trap_gate(0,1,divide error); 
t_trap_gate(1,1,debug); 

t_intr gate(2,1,nmi); 

t_system gate(3,1,int3); 

t_system gate(4,1,overflow); 
t_system gate(5,1,bounds); 
trap_gate(6,1,undefined _ opcode); 


t_ trap_gate(7,1,dev_ not _available); 
t_trap_gatel(8,1,double fault); 
t_trap_gate(9,1,coprocessor_segment_overrun); 
t_ trap_gate(10,1,invaliqd_ TSS); 
t_trap_gate(1l1,1,segment_ not_present); 
t_trap_gate(12,1,stack_ segment_fault); 

t tel 


_trap_ga 13,1,general_ protection); 
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Set_trapb_dgate(14,1,page_fault) ， 

//15 Intel reserved. Do not use. 
set_trap_gate(16,1,x87_FPU_error); 
set_trap_gate(17,1,alignment_check); 
set_trap_gate(18,1,machine check); 
set_trap_gate(19,1,SIMD exception); 
( 


set_trap_gate(20,1,virtualization exception); 


//set_system gate(SYSTEM_ CALL VECTOR,7,system call); 


3 


这 段 程序 为 各 个 异常 向 量 配置 了 处 理 函 数 和 栈 指针 ， 此 处 使 用 64 位 TSS 里 的 IST1 区 域 来 记录 栈 基 
地 址 。 卫 数 set_intr_gate、set_trap_gate、set_system_gate 分 别 用 于 初始 化 IDT 内 的 各 表 项 ， 


这 些 函 数 会 根据 异常 的 功能 ， 把 描述 符 配 置 为 DPL=0 的 中 断 门 和 陷阱 门 或 者 DPL=3 的 陷阱 门 


代码 清单 4-41 所 示 。 
代码 清单 4-41 第 4 章 \ 程 序 \ 程 序 4-5\kernel\gate.h 


inline void set_intr gate(unsigned int n,unsigned 


{ 


_set gate(IDT Table + n , Ox8E , ist , addr); 


} 


inline void set_ trap gate(unsigned int n,unsigned 


{ 


_set gate(IDT Table + n , Ox8F , ist , addr); 


2} 


inline void set_system gate(unsigned int n,unsigned char ist,void * addr) 


{ 


_set gate(IDT Table + n , OxEF , ist , addr); 


} 


以 上 三 个 描述 符 配置 函数 统一 使 用 宏 函 数 _set_gate 来 初始 化 IDT 内 的 各 个 表 项 ， 这 个 宏 
参数 IDT_Table 是 内 核 执 行头 文件 head.s 内 声明 的 标识 符 .globl IDT_Table， 在 gate .ph 文件 中 使 
其 声明 为 外 部 变量 


用 代码 extern struct gate_struct IDT_Table[] ;将 二 


用 。 代 码 清单 4-42 是 宏 函 数 _set_gate 的 定义 。 


代码 清单 4-42 ”第 4 章 \ 程 序 \ 程 序 4-5\kernel\gate.h 


#define _set_gate(gate_ selector_addr,attr,ist,code addr) 


do 
人 unsigned long __d0,_ dil; 
_asm _ volatile _ ( "mOVwW SSdx, 

"andq SOxX7， 
"addq %4, 
"shlqa $32, 
"adad SEIroXsy 
"ROrG SEIrcx, 
"movil $$Sedx, 


"shrqg $16, 
"shlqa $48, 


"addq SEIrcx, 


， 具 体 如 


char ist,void * addr) 


/PDPL=0,TYPE=E 


char ist,void * addr) 


//P,DPL=0, TYPE=F 


ZPDPL=3, TYPE=F 


供 _s t_gat 


Dt Oo a nt, Ded ee pe A te ae er 


Wo dt 


Tt 


11 


函数 的 


等 函数 使 
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"movd SSrax, $0 \n\t" \ 

"shrq $32., $$Srdx \n\t" \ 

"movd SSrdx, %1 \n\t" NN 
=m"(*( (unsigned long) (gate_selector_addr))), 是 

"=m"(*(1 + (unsigned long *) (gate_selector_addr 

))),"=&a"( qd0), "=&d"(__ qd1) \ 

(at 

"3"((unsigned long *) (code_addr)),"2"(0x8 << 

| 6) ty \ 

: "memory" \ 


je \ 
}while(0) 


该 宏 函 数 通过 内 髓 汇编 语句 (使 用 64 位 汇编 指令 和 通用 寄存 带 ) 实现 ， 其 主要 作用 是 初始 化 中 断 
描述 符 表 内 的 门 描述 符 ( 每 个 门 描述 符 16 B )。 

这 段 程序 比较 容易 理解 ,但 请 注意 ,在 内 骨 64 位 汇编 指令 时 ， 输 入 /输出 操作 表达 式 的 寄存 器 约束 
可 能 与 64 位 汇编 指令 不 兼容 。 例 如 本 程序 的 输入 表达 式 "i" (attr << 8)， 在 理论 上 可 以 使 用 r、g、 
q 等 寄存 器 约束 代替 i 约 束 ， 但 在 编译 时 会 出 现 错误 Error: suffix or operands invalid for 
'add' ， 如 果 将 这 行 代码 改 为 adadl $4，%secx \n\t 就 可 通过 编译 。 出 错 原 因 很 可 能 是 ，GNU C 编 
译 器 无 法 为 这 条 指令 匹配 到 合适 的 寄存 器 。 

异常 的 处 理 过 程 会 涉及 程序 执行 现场 的 保存 工作 ， 由 于 C 语 言 无 法 实现 寄存 器 压 栈 操作 ， 那 么 就 
必须 先 借助 汇编 语句 在 异常 处 理 程序 的 入 口 处 保存 程序 的 现场 环境 ， 然 后 再 执行 C 语 言 的 异常 处 理 函 
数 。 代 码 清 单 4-43 所 示 的 符号 常量 定义 了 各 寄存 器 〈 程序 执行 现场 ) 在 栈 中 的 保存 顺序 ( 基于 栈 指针 
的 偏 移 值 )。 
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include "linkage.h" 
RL 0x00 
R14 = 0x08 
R13 = 0x10 
R12 = 0x18 
R11 = 0x20 
R10 = 0x28 
民 9: ,这 0x30 
8 人 0x38 
RBX = 0x40 
RCX = 0x48 
RDX = 0x50 
4 0x58 
RDI = 0x60 
RBP = 0x68 
BBS: 千 0x70 
及 S: 沪 0x78 
RAX = 0x80 
FUNC = 0x88 
ERRCODE = 0x90 
RIP = 0x98 
Ci 省 0xa0 
RFLAGS 0xa8 


© 
二 

局 
由 
ID 
| 

Ll 

© 
Fa 

5 
© 


说 
币 


a 
不 管 是 异 
些 


场 ， 上 面 这 些 


符号 常量 定 


处 理 程序 还 是 中 断 处 理 程序 ， 在 处 至 


[my 三 mg 


的 增 量 偏 移 。 


级 切换 的 场景 ; 如 果 无 特权 级 切换 ， 则 只 有 RFLAGS、CS、RIP 等 符号 
栈 切 换 过 程 。 ) 而 符号 常量 定 
回 被 中 断 程序 时 必须 手动 弹出 栈 中 的 错误 码 ( IRET 指 令 无 法 自动 弹出 错误 码 )。 代 码 清 单 4-44 是 异 


1 于 栈 向 下 4 


E 必 须根 据 异 


ERRCOD 


人 处理 程序 的 返回 模块 ， 它 


说 


N 
到 
日 


程序 的 起 始 处 都 必须 保存 被 中 断 程序 的 执行 现 
义 了 栈 中 各 寄存 器 相对 于 栈 顶 地 址 〈 进程 执行 现场 保存 完毕 时 的 栈 顶 地 址 ) 
E 长 ， 那 么 借助 当前 栈 指针 寄存 器 RSP 加 符号 常量 ， 
的 寄存 器 值 。 代 码 清单 4-43 定 义 的 OLDSS 、OLDRSP 、RFLAGS 、CS 、RIP 等 符号 常量 ， 


便 可 取得 程序 执行 现场 
日 于 有 特权 
用 。( 参照 图 4-7 描 述 的 


的 实际 功 


人 


| 于 还 原 被 中 断 程序 的 执行 现场 。 
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RESTORE_ALL: 


PoPd 
PoPd 
PopPd 
PopPd 
Popd 
PoPd 
PopPd 
PoPd 
PoPd 
PopPd 
PoPd 
PoPd 
PoPd 
PoPd 
PopPd 
moVvd 
PoPd 
moVd 
PopPd 
addq 
iretqa; 


及 ] 


Cri9y 
Sr14; 
第 二 二 3 
S12 
第 玉生 名 
Sr10; 
Sr9; 
Sr8; 
Srbx; 
SIrCXx; 
Srdx; 
Srely 
Srdi; 
S$rbp; 
Srax; 
Srax, Sds; 
Srax; 
Srax, Ses; 
Srax; 


SOxLO, S$rsp; 


令 ， 所 以 此 处 使 月 
将 栈 指针 向 上 移动 16B， 目 的 是 弹出 栈 中 的 变量 


原 被 中 


有 语句 popq Srax;movg Srax, 


IPUSH CS/DS/] 


能 才 可 硬 


错误 码 人 栈 ， 并 且 在 返 


Hf 


澡 


PSTORBE_ALI 模 块 负责 还 原 程序 的 执行 现场 (根据 保存 程序 执行 现场 时 的 寄存 器 压 栈 顺序 ， 从 栈 
中 反 向 弹出 各 寄存 器 值 )。 因 为 在 64 位 汇编 指令 


ES/SS 和 POP DS/ES/Ss 都 是 无 效 指 


sqs ;来 代替 pop ds ;。 汇 编 代码 addqg $0x10,，%rsp; 


UNC 和 EE 


OLDRSP 从 栈 中 弹出 。 


编写 完 程序 执行 现场 的 还 原 模块 后 ， 再 来 设计 程序 执行 现场 


语言 编写 ) 的 调 


用 过 程 。 代 码 清单 4-45 是 # 


D] 


E (除法 ) 异常 的 处 天 


RRCODE。 此 后 便 可 执行 汇编 代码 iretq， 还 
断 程 序 的 执行 现场 ， 该 指令 可 自行 判断 还 原 过 程 是 否 涉及 特权 级 切换 ， 如 果 是 就 将 oLDSS 、 


的 保存 过 程 和 异常 处 理 函 数 (采用 C 
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E 
pushqa 
pushqa 


TRY (divide_error) 


$0 


Srax 


模块 。 
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leag do_divide_error (gsrip) ， Srax 
ehoe 第 下 总 江 (Srsp) 


error_code: 


pushqa Srax 

ImOVG Ses Srax 
pushqa Srax 

movg $ds, Srax 
pushqa Srax 

Xorgd Srax Srax 
pushqa Srbp 

pushqa Srdi 

pushqa SL 

pushqa Srdx 

pushqa SrcCx 

pushqa Srbx 

pushqa Sr8 

pushqa 入 下 总 

Pushd gz10 

Pushdc Sr 

pusha Sr12 

pushqa Sr13 

pushqa Sr14 

pushqa Sr15 

cld 

movg ERRCODE (S$rsp), Srsi 
ImOVG FUNC (S$rsp), Srdx 
movg SOx10， Srdi 
movg Srdi, Sds 
movd SE 和 > Ses 
movg Srsp, Srdi 


////GET_CURRENT (%ebx) 
calld *Srax 


jmp ret_from exception 

由 于 #DBE 异 常 不 会 产生 错误 码 ， 但 为 了 确保 所 有 异常 处 理 程序 的 寄存 器 压 栈 顺序 一 致 ， 便 向 栈 中 
压 人 了 数值 0 来 占 位 。 之 后 将 RAX 寄 存 器 值 压 和 人 栈 中 ,再 将 异常 处 理 函 数 qao_aivide_error 的 起 始 地 
址 存 和 信 RAX 寄 存 器 ， 并 借助 汇编 代码 xchga 将 RAX 寄 存 器 与 栈 中 的 值 交 互 。 此 举 则 把 
do_qdivide_error 函 数 的 起 始 地 址 存 入 栈 中 ， 而 且 还 恢复 了 RAX 寄 存 器 的 值 。 接 下 来 再 参照 上 文 描 
述 的 寄存 器 弹出 顺序 ， 反 向 将 各 寄存 器 值 压 人 栈 中 。 

一 且 进 程 的 执行 现场 保存 完毕 后 ， 就 可 执行 对 应 的 异常 处 理 函 数 。 由 于 被 中 断 的 程序 可 能 运行 在 
应 用 层 (3 特权 级 )， 而 异常 处 理 程序 运行 于 内 核 层 (0 特权 级 )， 那 么 在 进入 内 核 层 后 ，DS 和 了 ES 段 寄 
存 需 应 该 重新 加 载 为 内 核 层 数据 段 。 紧 接着 把 异常 处 理 函 数 的 起 始 地 址 装 人 RDX 寄 存 器 ， 将 错误 码 和 
栈 指针 分 别 存 人 RSI 与 RDI 寄 存 带 ， 以 供 异常 处 理 函数 使 用 ， 并 使 用 汇编 代码 cal1lg 执 行 异常 处 理 函 
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数 。 注 意 ， 在 AT&T 汇 编 语言 9 


P， 如 果 cALL 和 JMP 指 令 的 操作 数 前 级 中 含有 符号 *， 则 表示 调用 / 跳 转 


的 目标 是 绝对 地 址 ， 否 则 调用 / 跳 转 的 目标 是 相对 地 址 。 


异常 处 理 函 数 执行 结束 后 ， 便 跳 转 至 ret_from_exception 模 块 处 ， 还 原 被 中 断 程序 的 执行 现 
场 ， 详 见 代 码 清单 4-46。 


代码 清单 4-46 


jmp 


第 4 章 \ 程 序 \ 程 序 4-5\kernel\entry.S 


ret_from exception: 

/*GET_CURRENT (S$ebx) need rewrite*/ 
ENTRY (ret_from intr) 
RESTORE_ALL /*need rewrite*/ 


这 儿 行 代码 目前 只 负责 还 原 被 中 断 程序 的 执行 现场 ， 其 实 异常 的 返回 过 程 里 还 可 以 执行 进程 调 


度 、 进 程 信号 处 型 


等 工作 ， 在 后 续 的 开发 过 程 中 将 会 逐步 加 入 新 功能 。 


除了 实现 #DE 异 常 处 理 模块 外 ， 下 面 还 将 #NMI 不 可 屏蔽 中 断 、#TS 异 常 和 #PF 异 常 作为 典型 实例 
予以 讲解 ， 请 继续 往 下 看 代码 清单 4-47。 


代码 清单 4-47 


ENTRY (nmi ) 


pus 


(ealke 


pus 


pus 


movd 


pus 


movdaq 


pus 


XoOrg 


pus 
pus 
pus 
pus 
pus 
pus 
pus 
pus 
pus 
pus 
pus 
pus 
pus 
pus 


nq 


nq 


nq 


nq 


na 


na 
nq 
na 
na 
na 
na 
nq 
na 
na 
na 
nq 
nq 
nq 
nq 


movd 
movd 
movdaq 


movd 
movd 
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Srax 


Srax 


Srax 


Srdx; 
$ds; 
Ses; 


Srsi 
Srdi 
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callqa do_nmi 


jmp RESTORE_ALL 
#NMI 不 可 屏蔽 中 断 不 是 异常 ， 而 是 一 个 外 部 中 断 ， 从 而 不 会 生成 错误 码 。#NMI 应 该 执行 中 断 处 
理 过 程 ， 因 此 就 有 了 上 面 这 段 与 异常 处 理 程序 极其 相似 的 汇编 代码 。 这 段 程序 非常 好 理解 。 
本 着 趁 热 打铁 、 加 深 印 象 的 原则 ， 请 读者 再 来 看 看 #TS 异 常 的 处 理 过 程 ， 详 见 代 码 清 单 4-48。 


代码 清单 4-48 ”第 4 章 \ 程 序 \ 程 序 4-5\kernel\entry.S 


ENTRY (invalid_TSS) 


pushqa Srax 

leag do_invalid_TSS (Srip), Srax 
xchgq Srax, (Srsp) 

jmp error_code 


实现 了 无 错误 码 的 #DE 异 常 处 理 模 块 后 ， 有 错误 码 的 #4Ts 异 常 处 理 模 块 也 是 比较 容易 实现 的 。#TS 
异常 处 理 模 块 无 需 向 栈 中 压 入 数值 0 占 位 ( pushgq $0 )， 就 可 直接 使 用 统一 的 返回 模块 ， 其 他 执行 步 
又 与 #4DE 异 常 一 致 即 可 。 接 下 来 再 实现 #PF 异 常 处 理 模块 ， 请 看 代码 清单 4-49。 


代码 清单 4-49 ”第 4 章 \ 程 序 \ 程 序 4-5\kernel\entry.S 


ENTRY (page_fault) 


pushqa Srax 

leag do_page_fault (Srip), Srax 
xchgq Srax, (Srsp) 

jmp error_code 


#PF 异 常 与 #rs 异 常 的 执行 步 又 是 一 致 的 ,它们 的 区 别 在 于 错误 码 的 位 图 格式 。 关 于 错误 码 的 位 图 
格式 将 在 稍 后 内 容 中 了 予以 讲解。 

处 理 器 执行 完 上 述 异常 处 理 模块 的 汇编 程序 后 ， 将 跳 转 至 异常 处 理 函 数 中 ， 完 成 对 异常 的 分 析 和 
处 理工 作 。 代 码 清单 4-50 为 给 #DE 异 常 编写 的 异常 处 理 函 数 。 


代码 清单 4-50 ”第 4 章 \ 程 序 \ 程 序 4-5\kernel\trap.c 


void do_divide error(unsigned long rsp,unsigned long error_code) 


{ 


unsigned long * p = NULL; 
p = (unsigned long *) (rsp + 0x98); 
Color_printk (RED, BLACK, "do_divide error (0),ERROR_ CODE:%#0181x,RSP:%#0181x,RIP: 
%$#0181x\n",error_code , rsp , *p); 
while(1); 
} 


#DE 异 常 的 处 理 函 数目 前 仅 有 打印 出 错 信息 的 功能 ， 即 显示 错误 码 ( 因为 #4DE 异 常 没 有 错误 码 ， 这 
里 会 显示 之 前 入 栈 的 0 值 入 栈 指 针 值 和 异常 产生 的 程序 地 址 。 其 中 代码 pb = (unsigned long *) (rsp 
+ 0x98) ;中 的 数值 0x98， 对 应 着 上 文 (代码 清单 4-43 entry.S ) 的 符号 常量 RIP = 0x98， 意 思 是 将 栈 
间 针 寄存 器 RSP ( 异常 处 理 模块 将 栈 指针 寄存 器 RSP 的 值 作为 参数 存 人 人 RDI 寄存器 ) 的 值 向 上 索引 0x98 
个 字 节 ， 以 获取 被 中 断 程序 执行 现场 的 RIP 寄 存 器 值 ， 并 将 其 作为 产生 异常 指令 的 地 址 值 。 然 后 借助 
代码 while (1) ; 使 程序 保持 死 循环 状态 。 
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目前 , #NMI 不 可 屏蔽 中 断 与 #DE 异 常 的 处 理 程序 相同 , 即 只 有 打印 出 错 信息 的 功能 ,代码 清单 4-51 


是 #NMI 不 可 屏蔽 中 断 处 理 函数 的 实现 。 
代码 清单 4-51 第 4 章 \ 程 序 \ 程 序 4-5\kernel\trap.c 


void do_nmi (unsigned long rsp,unsigned long error_code) 
{ 

unsigned long * p = NULL; 

p = (unsigned long *) (rsp + 0x98); 


Color_printk (RED,BLACK, "do_nmi (2), ERROR_CODE:%#0181x,RSP:%$#0181x,RIP: 


%S#0181x\n",error_code , rsp , *p); 
while(1); 
} 


#NMI 不 可 屏蔽 中 断 的 处 理 函数 是 参照 #DE 异 常 处 理 函 数 编写 的 ， 此 处 就 不 再 过 多 解释 。 现 在 将 对 
#TS 异 常 和 #PF 异 常 的 错误 码 位 图 格式 予以 介绍 。( 请 参考 Intel 官 方 白皮书 Volume 3 的 6.13 节 。 ) 如 果 蜡 
常 产 生 的 原因 ( 外 部 中 断 或 TNT n 指 令 均 不 会 产生 错误 码 )， 关 系 到 一 个 特殊 的 段 选择 子 或 TDT 向 量 ， 
那么 处 理 器 会 在 异常 处 理 程序 栈 中 存 人 错误 码 。 值 得 注意 的 是 ,执行 IRET 指 令 并 不 会 在 异常 返回 过 程 


中 弹出 错误 码 ， 因 此 在 异常 返回 前 必须 手动 将 错误 码 从 栈 中 弹出 。 


根据 中 断 门 、 陷 阱 门 或 任务 门 的 操作 数位 宽 ， 错 误 码 可 以 是 一 个 字 或 双 字 ， 为 了 保证 双 字 错误 码 
入 栈 时 的 栈 对 齐 ， 错误 码 的 高 半 部 分 被 保留 。 图 4-9 是 错误 码 的 格式 ( #PF 异 常 的 错误 码 格式 与 此 截然 
不 同 ) 这 个 格式 与 段 选择 子 十 分 相似 ， 只 不 过 段 选择 子 (Segment Selector Index ) 中 的 TI 标志 位 与 RPL 


区 域 此 刻 已 变 为 错误 码 的 3 个 标志 位 。 


图 4-9 ”错误 码 的 格式 


个 更 早期 的 异常 。 


而 复位 则 说 明 其 记录 的 是 描述 符 表 GDT/LDT 内 的 描述 符 。 


口 EXT。 如 果 该 位 被 置 位 , 说 明 异 常 是 在 向 程序 投递 外 部 事件 的 过 程 中 触发 , 例如 一 个 中 断 或 一 


口 IDT。 如果 该 位 被 置 位 , 说 明 错 误 码 的 段 选 择 子 部 分 记录 的 是 中 断 描述 符 表 IDT 内 的 门 描述 符 ; 


口 TI。 只 有 当 IDT 标 志 位 复位 时 此 位 才 有 效 。 如 果 该 位 被 置 位 ， 说 明 错 误 码 的 段 选择 子 部 分 记录 


的 是 局 部 描述 符 表 LDT 内 的 段 描 述 符 或 门 描述 符 ; 而 复位 则 说 明 它 记录 的 是 全 局 描述 符 表 GDT 


的 描述 符 。 


错误 码 的 段 选择 子 部 分 可 以 索引 IDT、GDT 或 LDT 等 描述 符 表 内 的 段 描述 符 或 门 描述 符 。 在 某 些 


条 件 下 ,错误 码 是 NULL 值 ( 除 EXT 位 外 所 有 位 均 被 清 零 ) 这 表明 错误 并 非 
段 描述 符 而 产生 。 


1 引用 特殊 段 或 访问 NULL 


通过 以 上 内 容 介 绍 ， 相 信 读 考 已 经 对 异常 的 错误 码 有 了 清晰 、 直 观 的 认识 。 那 么 现在 就 向 #TS 蜡 


常 处 理 函 数 追 加 错误 码 的 解析 功能 ， 具 体 代码 如 代码 清单 4-52 所 示 。 
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代码 清 


单 4-52 第 4 章 \ 程 序 \ 程 序 4-5\kernel\trap.c 


void do_invalid TSS (unsigned long rsp,unsigned long error_code) 


{ 


} 


unsigned long * p = NULL; 

p = (unsigned long *) (rsp + 0x98); 

Color_printk (RED,BLACK, "do_invalid_ TSS(10),ERROR_ CODE:%#0181x,RSP:%#0181x,RIP: 
%$#0181x\n",error_code , rsp , *p); 


if (error_code & 0x01) 


if (error_code & 0x02) 
Color_printk (RED,BLACK, "Refers to a gate descriptor in the IDT; \n"); 
else 


Color_printk (RED,BLACK, "Refers to a descriptor in the GDT or the current 
DE NA 


Ea 


E ( (error_code & 0x02) == 0) 
if (error_code & 0x04) 
Color_printk (RED,BLACK, "Refers to a segment or gate descriptor in the 
RDP NT)s 
else 


Color_printk (RED,BLACK, "Refers to a descriptor in the current GDT; \n"); 


Color_printk (RED,BLACK, "Segment Selector Index:%#010x\n",error_ code & 0xfff8); 


while(1); 


Color_printk (RED,BLACK, "The exception occurred during delivery of an event 
external to the program, such as an interrupt or an earlier exception.\n"); 


’ 


’ 


#TS 蜡 常 处 理 函数 ao_invalid_TSSs 首 先 会 显示 异常 的 错误 码 值 、 栈 指针 值 、 异 常 产生 的 程序 地 
址 等 日 志 信 息 ， 随 后 再 解析 错误 码 并 将 详细 错误 信息 打印 在 屏幕 上 。 


对 于 操作 系统 而 言 ， 页 错误 异常 #PF 是 一 个 非常 重要 的 异常 ， 这 是 因为 一 些 延 时 页 操作 技术 均 是 


基于 #PF 异 常 实现 的 。 处 理 器 为 页 错误 异常 提供 了 两 条 信息 (线索 ) 来 帮助 诊断 异常 产生 的 原因 以 及 
恢复 方法 。( 请 参考 Intel 官 方 白 皮 书 Volume 3 的 4.7、6.15 节 。 ) 
口 栈 中 错误 码 。 页 错误 异常 的 错误 码 格式 与 其 他 异常 的 错误 码 完全 不 同 ， 处 理 器 使 用 5 个 标志 位 


来 描述 页 错误 异常 ， 图 4-10 是 页 错误 异常 的 错误 码 格式 。 


里 P 标 志 位 指示 异常 是 否 由 一 个 不 存在 的 页 所 引发 (P=0 )， 或 者 进入 了 违规 区 域 (P=1 )， 亦 或 


使 用 保留 位 (P=1 )。 
和 W/R 标 志 位 指示 异常 是 否 由 读 取 页 ( W/R=0 ) 或 写 人 页 (W/R=1 ) 所 产生 。 
田 U/S 标 志 位 指示 异常 是 否 由 用 户 模式 (U/S=1 ) 或 超级 模式 〈(U/S=0 ) 所 产生 。 
晶 当 CR4 控 制 寄 存 器 的 PSE 标 志 位 或 PAE 标 志 位 被 置 位 时 ， 处 理 器 将 检测 页 表 项 的 保留 位 ， 
RSVD 标 志 位 指示 异常 是 否 由 置 位 保留 位 所 产生 。 
和 ID 标志 位 指示 异常 是 否 由 获取 指令 所 产生 。 


口 CR2 控 制 寄 存 器 。CR2 控 制 寄 存 器 保存 着 触发 异常 时 的 线性 地 址 ， 蜡 常 处 理 程序 可 根据 此 线 伯 
地 址 定位 到 页 目录 项 和 页 表 项 。 页 错误 处 理 程序 应 该 在 第 二 个 页 错误 发 生前 保存 CR2 寄 存 器 的 


值 ， 以 免 再 次 触发 页 错误 异常 。 


31 $M 3 2 ul 0 
ee 
所 Eg be 和 态 | 污 
保留 已 
P 0: 页 不 存在 引发 异常 


: 页 级 保护 引发 异常 
W/R 0: 读 取 页 引发 异常 
: 写 人 页 引发 异常 
: 使 用 超级 用 户 权限 访问 页 引发 异常 
: 使 用 普通 权限 访问 页 引发 异常 
的 保留 位 未 引发 异常 

: 置 位 页 表 项 的 保留 位 引发 异常 
ID 0: 获取 指令 时 未 引发 异 党 

: 获取 指令 时 引发 异常 


图 4-10 ”页 错误 码 格式 


在 异常 触发 时 ， 处 理 器 会 将 CS 和 EIP 寄 存 右 值 保存 到 异常 处 理 程序 栈 内 ， 通 常情 况 下 这 两 个 寄存 
右 值 指向 触发 异常 的 指令 。 如 果 #PF 异 常 发 生 在 任务 切换 期 间 ， 那 么 CS 和 EIP 寄 存 带 可 能 指向 新 任务 


的 第 一 条 指令 。 


代码 清单 4-53 中 的 do_page_fault 函 数 负责 处 理 #PF 异 常 ， 目 前 这 个 函数 只 能 打印 异常 信 ) 


误 码 的 解析 数据 ， 具 体 程 序 实现 如 下 。 
代码 清单 4-53 ”第 4 章 \ 程 序 \ 程 序 4-5\kernel\trap.c 


void do_page fault (unsigned long rsp,unsigned long error_code) 


{ 


unsigned long * p = NULL; 

unsigned long cr2 = 0; 

_asm _ __ volatile _("movg S$%SCIrI2, SO TePT(OrT2) 3 "memory™}y 
p = (unsigned long *) (rsp + 0x98); 


息 和 错 


Color_printk (RED,BLACK, "do_page_fault (14),ERROR_ CODE:%#0181x,RSP:%#0181x,RIP: 


%S#0181x\n",error_code , rsp , *p); 


if(!(error code & 0x01)) 
color_printk (RED,BLACK, "Page Not-Present,\t"); 


if(error_code & 0x02) 
color_printk (RED,BLACK, "Write Cause Fault,\t"); 
else 
color_printk (RED,BLACK, "Read Cause Fault,\t"); 


if(error_code & 0x04) 
Color_printk (RED,BLACK, "Fault in user(3)\t"); 
else 
color_printk (RED,BLACK, "Fault in supervisor(0,1,2)\t"); 


if(error_code & 0x08) 
Color_printk (RED,BLACK,",Reserved Bit Cause Fault\t"); 
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if (error_code & 0x10) 
Color_printk (RED,BLACK,",Instruction fetch Cause Fault"); 


color_printk (RED,BLACK, "\n");} 
Color_printk (RED,BLACK, "CR2:%#0181x\n",cr2); 


while(1); 
} 
函数 ao_page_fault 首 先 将 CR2 控 制 寄存 器 的 值 保存 到 变量 cr*2 里 ， 由 于 C 语 言 不 支持 寄存 器 操 
作 ， 所 以 此 处 内 嵌 汇 编 语句 将 CR2 寄 存 器 的 值 复 制 到 cr2 变 量 中 。 随 后 显示 错误 码 、 栈 指针 值 、 异 常 
产生 的 程序 地 址 ， 紧 接着 再 解析 错误 码 以 显示 更 详细 的 错误 信息 。 


注 明 在 Linux 2.4.0 内 核 的 traps.c 文 件 中 ， 曾 使 用 asmlinkage 宏 ( 宏 定义 如 下 所 示 ) 声明 各 异常 处 理 
模块 的 入 口 标识 符 (如 nmi、page_fault 等 )， 此 举 是 为 了 通知 编译 器 在 执行 异常 处 理 模块 时 
不 得 使 用 寄存 器 传 参 方式 。 但 在 编译 64 位 程序 时 ，GCC 编 译 器 只 能 使 用 寄存 器 传 参 方式 ， 因 此 
asmlinkage 宏 功能 无 效 。 


#define asmlinkage _ attribute _((regparm(0))) 


宏 asmlinkage 借 助 GNU C 语 言 的 特殊 属性 regparm， 来 限制 可 使 用 寄存 器 传递 参数 的 个 数 ， 如 
果 寄 存 器 传递 参数 的 个 数 超过 3 ， 那 么 剩余 参数 将 改 用 内 存 传 参 方式 。 

经 过 上 述 异 常 处 理 函数 的 实现 ， 现 在 到 了 异常 处 理 函 数 的 测试 环节 。 代 码 清单 4-54 借 助 程序 i = 
1/0;， 使 处 理 器 触发 #4DE 异 常 。 


代码 清单 4-54 ”第 4 章 \ 程 序 \ 程 序 4-5\kernel\main.c 


#include "lib.h" 
#include "printk.h" 
#include "gate.h" 
#include "trap.h" 


void Start_Kernel (void) 


load_TR(8); 


set_tss64(0xffff800000007c00, Oxffff800000007c00, 0xffff800000007c00, 
Oxffff800000007c00, 0xffff800000007c00, Oxffff800000007c00, 0xffff80000000 
7c00, Oxffff800000007c00, Oxffff800000007c00, 0xffff800000007c00); 


Sys_vector_init(); 


A 
// i = *(int *)0Oxffff80000aa00000; 


while(1) 


这 段 程 序 通 过 宏 函 数 10ad_TR (8);， 将 TSS 段 描述 符 的 段 选择 子 加 载 到 TR 寄存 器 ， 而 函数 
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set_tss64 则 负责 配置 TSS 段 内 的 各 个 RSP 和 IST 项 。 这 两 个 函数 位 于 文件 gate.h 中 ， 它 们 的 代码 实现 


并 未 使 用 复杂 的 程序 逻辑 ， 请 读者 自行 阅读 。 


注意 TSS 段 描述 符 被 加 载 到 TR 寄 存 器 后 ， 其 B 标 志 位 (Busy ) 会 被 置 位 ， 如 果 重 复 加 载 此 描述 符 则 
产生 #TS 蜡 常 ( Bochs 虚 拟 机 会 提示 “LTR: doesn'tpointto an available TSS descriptor!” )。 因 此 
必须 将 代码 清音 4455 内 关于 加 载 TSS 段 选择 子 的 汇编 代码 删 掉 ， 否 则 会 导致 运行 出 错 。 


代码 清单 4-55 ”第 4 章 \ 程 序 \ 程 序 4-5\kernel\head.S 


// mov SOx40, %Sax 
大 大 trax 


以 上 就 是 异常 捕获 与 错误 码 解析 功能 的 全 部 内 容 ， 程 序 的 执行 效果 如 图 4-11 所 示 。 


图 4-11 高 级 异常 /中 断 日 志 显 示 图 


反 汇 编 system 程 序 ， 将 图 4-11 中 的 异常 信息 RIP: 0xffff800000104c59 与 system 反 汇编 程序 
的 代码 fftff800000104c59 进 行 对 比 ， 发 现 异 常 确 实 是 发 生 于 汇编 代码 idqiv1 处 : 


ffff800000104c48: 
ffff800000104c4d: 
ffff800000104c54: 
ffff800000104c56: 
ffff800000104c59: 


b8 
C7 
89 
GL 
Ey 


01 
45 
C2 
fa 
Wel 


如 果 将 代码 清单 4-54 中 的 代码 i 


Sh 


并 


00 00 00 IOV SOX1 ,geaX 

ec 00 00 00 00 movil $0Ox0,—-0x14 (%rbp) 
ImOV Seax, Sedx 

竺 下 sar SOxlf, Sedx 

ec idivl -0x14(%rbp) 


= 1/0; 改 为 i = * (int *)0xffff80000aa00000;， 可 触发 #PF 


常 悍 序 的 执行 效果 如 图 4-12 所 示 。 
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图 4-12”#PF 异 常 日 志 显 示 图 


屏幕 上 打印 的 异常 信息 RIP: 0xfffft800000104c52 指 明 触 发 异常 指令 的 地 址 ， 异 常 原因 则 是 页 
不 存在 、 读 取 页 时 触发 异常 、 错 误 发 生 在 0 特权 级 权限 下 。 页 错误 的 地 址 保持 于 CR2 控 制 寄存 器 内 ， 其 
值 为 0xffff80000aa00000， 这 个 地 址 正 是 程序 访问 内 存 时 触发 异常 的 地 址 。 

既然 已 经 实现 了 系统 异常 捕获 功能 ， 那么 操作 系统 就 有 了 感知 异常 的 能 力 ， 从 而 可 以 快速 定位 到 
程序 运行 出 错 的 位 置 。 

接 下 来 ， 我 们 将 会 统计 系统 可 用 物理 内 存 ， 并 实现 物理 内 存 的 初步 管理 功能 。 


4.5 初级 内 存 管 理 单 元 


本 节 是 物理 内 存 管 理 单元 的 入 门 级 内 容 ， 它 将 为 读者 展示 如 何 获取 物理 内 容 信息 、 统 计 可 用 物理 
内 存 页 数量 以 及 分 配 物理 页 等 相对 基础 的 功能 。 
关于 可 用 物理 内 存 的 相关 信息 ,已 经 在 Loader 引 导 加 载 程序 中 通过 BIOS 中 断 服务 程序 获得 ,同时 
本 系统 还 将 打破 以 往 的 4 KB 物理 页 分 配 和 管理 方式 ， 改 用 2 MB 物理 页 。 因 此 ,不仅 统 计 可 用 物理 页 
数量 和 分 配 物理 页 均 是 基于 2 MB 物理 页 实现 的 软件 逻辑 ， 乃 至 整个 内 存 管理 单元 缘 是 ,这 些 软件 逻辑 
会 对 物理 内 存 页 进行 有 效 的 组 织 和 管理 。 


4.5.1 获得 物理 内 存 信息 


本 节 使 用 的 物理 地 址 空间 信息 ， 已 在 Loader 引 导 加 载 程序 中 通过 BIOS 中 断 服务 程序 INT 15h 
AX=E820h 获 得 ， 并 保存 在 物理 地 址 7E00h 处 。 接 下 来 ， 将 会 把 物理 地 址 7E00h 处 的 信息 提取 出 来 ， 
转换 成 相应 的 结构 体 再 加 以 统计 。 这 部 分 内 容 可 以 结合 第 7 章 获 取 物 理 地 址 空间 信息 的 相关 知识 并 
行 学 习 。 

地 址 7E00h 处 的 物理 地 址 空间 信息 存 有 若干 组 ， 它 们 描述 计算 机 平台 的 地 址 空间 划分 情况 ， 其 数 
量 会 依据 当前 主板 硬件 配置 和 物理 内 存 容量 信息 而 定 ， 每 条 物理 址 空间 信息 占 20 B， 详 细 定 义 如 代码 
清单 4-56 所 示 。 


122 第 4 章 


内 核 层 


代码 清单 4-56 第 4 章 \ 程 序 \ 程 序 4-6\kernel\memory.h 


struct Memory_E820_Formate 


{ 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 


中 


准备 好 数据 解析 结构 体 后 ， 使 用 该 结构 体格 式 化 物理 地 址 7E00h 处 的 数据 。 不 过 由 于 7E00h 是 物理 


int 
int 
int 
int 
int 


addressl1; 
address2; 
lengthil; 
length2; 
type; 


地 址 ， 必 须 经 过 页 表 映 射 后 才能 被 程序 使 用 ， 转 换 后 的 线性 地 址 是 Eftftf800000007e00h， 这 便 是 程 
序 要 操作 的 目标 地 址 ， 请 看 代码 清单 4-57。 
代码 清单 4-57 第 4 章 \ 程 序 \ 程 序 4-6\kernel\memory.c 


#include "memory.h" 
#include "lib.h" 


void init_ memory () 


{ 


Tb 


unsigned long TotalMem = 0 ，} 
struct Memory_E820_Formate *p = NULL; 


color_printk(BLUE, BLACK, "Display Physics Address MAP,Type (1:RAM,2:ROM or 
Reserved,3:ACPI Reclaim Memory,4:ACPI NVS Memory,Others:Undefine)\n"); 
p = (struct Memory_E820_Formate *)0Oxffff800000007e00; 


for(i = 0;i < 32;i++) 


{ 


color_printk (ORANGE, BLACK, "Address:%#010x,%08x\tLength:%#010x,%08x\tType: 
$#010x\n",p->address2,p->address1,p->length2,p->lengthi1,p->type); 

unsigned long tmp = 0; 

if(p->type == 1) 


{ 


tmp 


p->length2; 


TotalMem += p->lengthil; 


ES 


} 


pt++; 


talMem += tmp << 32; 


if(p->type > 4) 
break; 


} 


Color_printk (ORANGE,BLACK, "OS Can Used Total RAM:%#018lx\n",TotalMem); 


} 


这 上段 程序 首先 将 所 
地 址 空间 的 分 布 信息 。 


首 针 变 量 p 指 向 线性 地 址 0xffff800000007e00 处 ， 通 过 32 次 循环 逐条 显示 内 存 
图 4-13 是 从 Bochs 虚 拟 机 检测 出 的 地 址 空间 分 布 信息 ， 其 type 值 不 会 大 于 4， 如 


果 出 现 type > 4 的 情况 ， 则 是 遇见 了 程序 运行 时 产生 的 脏 数 据 ， 就 没有 必要 继续 比 对 下 去 ， 而 直接 


跳出 该 循环 。 


4.5 初 级 内 存 管 理 单元 123 


图 4-13 ”获得 物理 内 存 信息 


从 图 4-13 中 可 以 看 出 ， 可 用 物理 内 存 空间 ( type = 1 ) 由 两 部 分 组 成 ， 一 部 分 是 容量 为 9f000h 的 


段 ， 另 一 部 分 是 容量 为 7fef0000h 的 段 。 进 而 计算 出 可 用 物理 内 存 的 总 容量 是 ( 9f000h + 7fef0000h ) 
B = 7ff8f000h B 人 2047.55 MB 约 2 GB， 这 与 第 2 章 配置 虚拟 平台 运行 环境 时 设置 的 参数 megs: 2048 
(物理 内 存 容 量 ) 相符 。 虽 然 知 道 可 用 物理 内 存 的 总 容量 ， 但 是 不 能 直接 将 这 个 数值 转换 成 相应 的 内 存 
页 使 用 ， 具 体 方法 请 继续 往 下 看 。 


4.5.2 ”计算 可 用 物理 内 存 页 数 


可 用 物理 内 存 页 数 通 常 间接 描述 了 操作 系统 可 以 使 用 的 物理 内 存 数 ， 这 些 页 必须 按照 页 大 小 进行 
物理 地 址 对 齐 。 为 了 方便 这 个 功能 的 函数 实现 ， 以 及 方便 后 续 开 发 使 用 ， 定义 的 常用 宏 常 量 如 代码 清 
单 4-58 所 示 。 


昌 


代码 清单 4-58 ”第 4 章 \ 程 序 \ 程 序 4-7\kernel\memory.h 


// 8 Bytes per cell 
define PTRS_PER_PAGE S12 


define PAGE_OFFSET ((unsigned long) Oxffff800000000000) 


define PAGE_GDT_SHIFT 39 


define PAGE_1G_SHIFT 30 
define PAGE_ 2M_SHIFT 21 
define PAGE_4K_SHIFT 12 
define PAGE_ 2M_SIZE (1UD << PAGE_ 2M_SHIFT) 
define PAGE_ 4K_SIZE (1UDL << PAGE_ 4K_SHIFT) 


define PAGE_ 2M MASK (~ (PAGE_2M_ SIZE - 1)) 
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#define PAGE_ 4K_ MASK (~ (PAGE_4K_SIZE - 1)) 

#define PAGE_ 2M_ ALIGN (addr) (((unsigned long) (addr) + PAGE 2M_ SIZE - 1) & 
PAGE_2M_MASK) 

#define PAGE_4K_ALIGN (addr) (((unsigned long) (addr) + PAGE 4K_SIZE - 1) & 


PAGE_4K_MASK) 


#define Virt_To_Phy (addr) ((unsigned long) (addr) - PAGE_ OFFSET) 
#define Phy_To_Virt (addr) ((unsigned long *) ((unsigned long) (addr) + PAGE_ OFFSET)) 


宏 常 量 PTRS_PER_PAGE 代 表 页 表 项 个 数 ， 在 64 位 模式 下 每 个 页 表 项 占用 字 节 数 由 原来 的 4 字 节 扩 
展 为 8 字 节 ， 每 个 页 表 大 小 为 4KB， 因 此 页 表 项 个 数 为 4 KB =8B=512。 宏 常量 PAGE_OFFSET 代 表 内 
核 层 的 起 始 线性 地 址 ， 该 线性 地 址 位 于 物理 地 址 0 处 〈 此 值 必须 经 过 页 表 重 映射 )。 

次 党 量 P A GE 4K_ SHIFT 代 表 2PAGE 4K_SHIFTE —4 KB ， 同 理 2RGE 2M_SHETB=2 MB 2PAGE IG SHITB=1 GB 
以 此 类 推 , 它们 将 64 位 模式 下 的 每 种 页 表 项 代表 的 物理 页 容量 都 表示 出 来 。 宏 常量 PACE_2M_sIZE 代 表 2 
MB 页 的 容量 ， 宏 展开 后 会 将 1 向 左 移动 PAGE_2M_SHIFT 位 。 宏 常量 PAGE_2M_MASK 是 2 MB 数值 的 屏蔽 
码 ， 通 常用 于 屏蔽 低 于 2 MB 的 数值 。 

宏 函 数 PAcE_2M_ALIGN(addr) 的 作用 是 将 参数 adaar 按 2 MB 页 的 上 边界 对 齐 。 宏 函数 
Virt_To_Phy (addr) 用 于 将 内 核 层 虚拟 地 址 转换 成 物理 地 址 ， 请 注意 该 宏 函 数 是 有 条 件 限制 的 , 日 
前 只 有 物理 地 址 的 前 10 MB 被 映射 到 线性 地 址 0xffff800000000000 处 (在 head.S 文 件 定义 的 页 表 
中 ), 也 只 有 这 10 MB 内 存 空 间 可 供 该 宏 函 数 使 用 。 随 着 系统 功能 的 不 断 强 大 和 完善 ， 可 使 用 的 内 存 空 
间 也 会 相继 增 大 。 而 宏 函 数 Phy_To_Virt (addr) 与 Virt_To_Phy (addqr) 的 功能 恰恰 相反 。 

定义 了 这 些 常 用 宏 后 ， 还 需 定 义 全 局 结构 体 struct Global_Memory_Descriptor， 来 保存 所 
有 关于 内 存 的 信息 以 供 内 存 管理 模块 使 用 ， 代 码 清单 4-59 中 的 结构 体 struct E820 则 是 struct 
Memory_E820_Formate 结 构 体 的 替代 版 本 。 


代码 清单 4-59 ”第 4 章 \ 程 序 \ 程 序 4-7\kernel\memory.h 


struct E820 
{ 


unsigned long address; 
unsigned long length; 
unsigned int type; 
}_attribute _((packed)); 


struct Global_ Memory_Descriptor 
{ 
struct E820 e820[32]; 
unsigned long e820_length; 
ys 


extern struct Global Memory_Descriptor memory_ management_struct; 

结构 体 中 的 特殊 属性 _attripbute__( (packed) ) ;修饰 该 结构 体 不 会 生成 对 齐 空间 ， 改 用 紧凑 
格式 ， 也 只 有 这 样 才能 从 struct E820 结 构 体 中 正确 索引 出 线性 地 址 Efff800000007e00h 处 的 内 存 
空间 分 布 信息 。 目 前 的 struct Global_Memory_Descriptor 结 构 体 仅 包含 内 存 地 址 空间 结构 
struct E820， 更 多 内 容 将 在 今后 的 开发 中 相继 引入 。 代 码 清单 4-60 是 全 局 结构 体 变量 memory_ 


management_struct 定 义 。 


4.5 初 级 内 存 管 理 单元 125 


代码 清单 4-60 ”第 4 章 \ 程 序 \ 程 序 4-7\kernel\main.c 


struct Global Memory_Descriptor memory_ management_struct = {{0},0}; 


接 下 来 将 会 对 init_memory () 函数 进行 修改 和 扩充 ， 代 码 清单 4-61 是 具体 程序 实现 
代码 清单 4-61 第 4 章 \ 程 序 \ 程 序 4-7\kernel\memory.c 


void init_memory () 


人 2 ee EE | 
{ 


Color_printk (ORANGE, BLACK, "Address:%#0181lx\tLength:%#018]x\tType:%S#010x\n", 
p->address,p->length,p->type); 

unsigned long tmp = 0; 

if (p->type == 1) 
TotalMem += p->length; 


memory_management_struct.e820[i] .address += p->address; 
memory_management_struct.e820[i].length += p->length; 
memory_management_struct.e820[i] .type = p->type; 
memory_management_struct.e820_length = i; 


p++; 
if(p->type > 4) 
break; 
} 
Color_printk (ORANGE, BLACK, "OS Can Used Total RAM:%#018]lx\n",TotalMem); 


这 部 分 代码 的 功能 依然 是 显示 物理 内 存 空间 分 布 信息 ， 只 不 过 这 次 将 内 存 空间 分 布 信息 都 保存 
0 struct 全 局 变量 的 e82 de 量 中 。 然 后 对 e820 结构 体 数 
组 中 的 可 用 物理 内 存 段 进行 2 MB 物理 页 边界 对 齐 ， 并 统计 出 可 用 物理 页 的 总 量 , 详细 代码 如 代码 清 
单 4-62 所 示 。 


代码 清单 4-62 第 4 章 \ 程 序 \ 程 序 4-7\kernel\memory.c 


TotalMem = 0; 


for(i = 0;i <= memory_management_struct.e820_length;i++) 


unsigned long start,end; 


if (memory_management_struct.e820[i].type != 1) 

continue; 
start = PAGE_2M_ALIGN (memory_management_struct.e820[i].address); 
end = ((memory_management_struct.e820[i].address + 


memory_management_struct.e820[i].length) >> PAGE 2M_SHIFT) << PAGE_ 2M_SHIFT; 
f(lend <= start) 
continue; 
TotalMem += (end - start) >> PAGE 2M_SHIFT; 


Color_printk (ORANGE, BLACK, "OS Can Used Total 2M 
PAGEs:%#010x=%$010d\n",TotalMem,TotalMem); 
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在 本 段 程序 中 ， 检 测 出 可 用 物理 内 存 段 后 ， 使 用 宏 函 数 PAcE_2M_ALIGN 将 这 些 段 的 起 始 地 址 


按 2 MB 页 的 上 边界 对 齐 , 经 过 对 齐 处 理 后 的 地 址 才 是 段 的 有 效 内 存 起 始 地 址 。 而 这 些 段 的 结束 地 址 
是 由 段 的 原 起 始 地 址 和 段 长 度 相 加 而 得 ， 随 后 将 计算 结果 用 移 位 的 方式 按 2 MB 页 的 下 边界 对 齐 ， 亦 


We 


可 使 用 之 前 定义 的 宏 常量 PAGE_2M_MASK 进 行 页 的 下 边界 对 齐 操作 。 如 果 计 算 后 的 起 始 地 址 小 于 等 
于 计算 后 的 结束 地 址 ， 则 视 这 个 段 为 有 效 内 存 段 ， 进 而 计算 其 可 用 物理 页 数量 ， 并 在 屏幕 上 打印 出 


可 用 物理 页 总 量 ， 


图 4-14 是 程序 的 运行 效果 。 


从 图 4-14 的 信息 可 知 ， 虚 拟 机 的 可 用 物理 内 存 页 数量 为 1022， 在 此 基础 上 便 可 实现 物理 内 存 页 分 


册 加 


数 alloc_pages。 该 函数 在 操作 系统 中 至 关 重 要 ， 不 管 是 内 核 层 还 是 应 用 层 都 直接 或 间接 地 使 用 
数 来 申请 内 存 空间 。 


Bochs x86-64 emulator, http://bochs.sourceforge.net/ 


图 4-14 ”可 用 物理 内 存 页 数 


4.5.3 ”分 配 可 用 物理 内 存 页 


在 操作 系统 中 ， 内 存 管理 单元 是 操作 系统 最 为 重要 的 一 个 组 成 部 分 ， 而 物理 内 存 页 是 内 存 管 理 单 


元 的 基础 管理 对 象 。 因 此 ， 初 始 化 内 存 管 理 单元 的 首要 任务 就 是 汇总 可 用 物理 内 存 页 的 相关 信息 , 方 
可 实现 可 用 物理 内 存 页 的 分 配 功能 。 那 么 就 先 让 我 们 抽象 出 物理 内 存 的 管理 结构 ， 再 编写 物理 内 存 页 


分 配 函 数 。 


1. 物理 页 管理 结构 的 定义 及 初始 化 


为 了 汇总 可 


| 物理 内 存 信息 并 方便 以 后 的 管理 ,现在 特 将 整个 内 存 空 间 (通过 E820 功 能 返回 的 各 


个 内 存 段 信息 , 包括 RAM 空 间 、ROM 空 间 、 保留 空间 等 ), 按 2 MB 大 小 的 物理 内 存 页 进行 分 割 和 对 齐 。 


分 割 后 的 每 个 物理 内 存 页 由 一 个 struct page 结 构 体 负责 管理 ， 然 后 使 用 区 域 空间 结构 体 struct 
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zone 代表 各 个 可 用 物理 内 存 区 域 ( 可 用 物理 内 存 段 )， 并 记录 和 管理 本 区 域 物理 内 存 页 的 分 配 情况 。 
最 后 将 struct page 结 构 体 和 struct zone 结构 体 都 保存 到 全 局 结构 体 struct Global _ 
Memory_Descriptor 内 。 图 4-15 是 物理 内 存 页 的 管理 结构 示意 图 。 


B: 空 洞 
a zone[0] 
zones_struct <———zones[n] zone[1] 
struct Global Memory_Descriptor 
We zone[2] 
pages_struct<———— pages[n] 
zone[0] B | zone[]] | B | zone[2] 


图 4-15 ”物理 内 存 页 的 管理 结构 示意 图 


图 4-15 中 的 pages_struct 结 构 包 含 所 有 内 存 页 结构 体 ，zones_struct 结 构 包 含 所 有 区 域 空 间 
结构 体 ， 它 们 增强 了 全 局 结构 体 struct Global_Memory_Descriptor 的 管理 能 力 。 每 当 执 行 页 的 
分 配 或 回收 等 操作 时 ， 内 核 会 从 全 局 结构 体 struct Global_Memory_Descriptor 中 索引 出 对 应 的 
区 域 空间 结构 和 页 结构 ， 并 调整 区 域 空间 结构 的 管理 信息 与 页 结构 的 属性 和 参数 。 代 码 清单 4-63 、 代 
码 清单 4-64 以 及 代码 清单 4-65 是 内 存 页 结构 、 区 域 空间 结构 以 及 全 局 结构 体 的 详细 结构 体 定义 。 


代码 清单 4-63 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.h 


struct Page 


{ 


strUGt TONES ZOne, struets 
unsigned long PHY_address; 
unsigned long attribute; 
unsigned long reference_count; 
unsigned long age; 


} 
表 4-3 是 struct page 结 构 体 各 成 员 变 量 的 功能 描述 。 


表 4-3 ”struct page 结 构 体 成 员 功 能 信息 


结构 体 成 员 功能 描述 
zone_struct 指向 本 页 所 属 的 区 域 结构 体 
PHY_address 页 的 物理 地 址 

attribute 页 的 属性 
reference_count 描述 的 是 该 页 的 引用 次 数 
age 描述 的 是 该 页 的 创建 时 间 


相信 读者 已 经 发 现 ， 其 实 PHY_address 和 zone_struct 结 构 体 成 员 是 可 以 通过 计算 获得 的 ， 此 
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处 添加 这 两 个 成 员 是 为 了 节省 计算 时 间 ， 从 而 实现 以 空间 换 时 间 。 而 成 员 变 量 attribute 则 用 于 描述 
当前 页 的 映射 状态 、 活 动 状态 、 使 用 者 等 信息 。 


了 


注意 目前 定义 的 结构 体 均 为 临时 设计 ， 而 非 最 终 版 本 ， 在 后 续 的 开发 过 程 中 会 随时 根据 需要 删 减 


或 更 换 。 


代码 清单 4-64 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.h 


struct Zone 

{ 
struct Page * 
unsigned long 


unsigned long 
unsigned long 
unsigned long 
unsigned long 


pages_group; 
pages_length; 


zone_start_address; 
zone_end_address; 
zone_length; 
attribute; 


struct Global_ Memory_Descriptor * GMD struct; 


unsigned long 
unsigned long 


unsigned long 


入 


结构 体 成 员 


page_using_count; 
page_free_ count; 


total_pages_link; 


表 4-4 是 struct zone 结 构 体 各 成 员 变 量 的 功能 描述 。 


ll 


表 4-4 ”struct zone 结构 体 成 员 功 能 信息 


功能 描述 


pages_group 
pages_length 
Zone_start_adqdress 
Zone_end_address 
zone_length 
attribute 
GMD_struct 
Dage_using_count 
page_free_count 


total_pages_link 


在 struct zone 结构 体 中 ，total_pages_link 成 员 变 量 描述 的 是 物理 页 被 引用 次 数 。 由 于 物 
页 在 页 表 中 的 映射 可 以 是 一 对 多 的 关系 ， 一 个 物理 页 可 以 同时 映射 到 线性 地 址 空间 中 的 多 个 位 置 上 ， 
_link 与 page_using_count 在 数值 上 并 不 一 定 相 等 。 而 成 员 变 量 


故 成 员 变 量 total_pages 


struct page 结 构 体 数组 指针 
本 区 域 包 含 的 struct page 结 构 体 数量 
本 区 域 的 起 始 页 对 齐 地 址 
本 区 域 的 结束 页 对 齐 地 址 
本 区 域 经 过 页 对 齐 后 的 地 址 长 度 
本 区 域 空 间 的 属性 
指向 全 局 结构 体 struct Global_Memory_Descriptor 
本 区 域 已 使 用 物理 内 存 页 数量 

成 空闲 物理 内 存 页 数量 
本 区 域 物理 页 被 引用 次 数 


上 师 


则 [0 


attripbute 则 用 于 描述 当前 


区 域 是 否 支持 DMA 、 页 是 否 经 过 页 表 映 射 等 信息 。 


下 面 再 来 看 看 内 核 又 向 全 局 结构 体 struct Global_ Memory_Descriptor 追 加 了 哪些 成 员 变 
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量 ， 如 代码 清单 4-65 所 示 。 
代码 清单 4-65 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.h 


struct Global_ Memory_Descriptor 


t 
struct E820 
unsigned long 


unsigned long 
unsigned long 
unsigned long 


struct Page * 
unsigned long 
unsigned long 


struct Zone * 
unsigned long 


unsigned long 


unsigned long 


unsigned long 


由 


e820[32]; 
e820_length; 


大 bits_map; 
bits_size; 
bits_length; 


pages_struct; 
pages_size; 
pages_length; 


Zones_struct; 
zones_size; 
zones_length; 


start_code , end_ code , end data , end_brk; 


end_of_struct; 


表 4-5 是 struct Global_Memory_Descriptor 结 构 体 各 成 员 变 量 的 功能 描述 。 


表 4-5 
结构 体 成 员 


struct Global Memory_Descriptor 结 构 体 成 员 功 能 信息 


功能 描述 


e820[32] 
e820_length 
bits_map 
bits_size 
bits_length 
pages_struct 
pages_size 
pages_length 
zones_struct 
zones_size 
Zones_length 
start_code 
end_code 
end_data 
end_brk 


engd_of_struct 


蛙 内 存 段 结构 数组 

蛙 内 存 段 结构 数组 长 度 
蛙 地 址 空间 页 映射 位 图 
晶 
晶 


地 址 空间 页 数量 
地 址 空间 页 映射 位 图 长 度 

向 全 局 struct page 结 构 体 数组 的 指针 
struct page 结 构 体 总 数 

struct page 结 构 体 数组 长 度 

指向 全 局 struct zone 结 构 体 数组 的 指针 
struct zone 结 构 体 数量 
struct zone 结构 体 数 组 长 
内 核 程序 的 起 始 代码 段 地 址 
内 核 程序 的 结束 代码 段 地 址 
内 核 程序 的 结束 数据 段 地 址 
内 核 程序 的 结束 地 址 
内 存 页 管理 结构 的 结尾 地 


构 
构 
构 


汝 


尘 


表 中 的 bits_**** 相 关 字 段 是 struct page 结 构 体 的 位 图 映射 ， 它 们 是 一 一 对 应 的 关系 。 建 立 


bits 位 图 映射 的 目的 是 为 方便 检索 pages_struct 中 的 空闲 页 表 ， 而 pages_**** 和 zones_**** 相 
关 变 量 就 比较 好 理解 ， 它 们 用 来 记录 struct page 和 struct zone 结构 体 数组 的 首 地 址 以 及 资源 分 


配 情 况 等 信息 。 至 于 start_code、engd_code、engd_gdata、eng_brk 这 4 个 成 员 变 量 , 它们 用 于 保存 


内 核 程序 编译 后 的 各 段 首尾 地 址 (包括 代码 段 、 数 据 段 、BSS 段 等 )， 而 首尾 地 址 则 是 在 kernel.lds 文 件 
中 定义 并 在 代码 清单 4-66 中 声明 。 


代码 清单 4-66 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\main.c 


extern 
extern 
extern 
extern 


char 
char 
char 
char 


_text; 

_etext; 

_edata; 
_end; 


么 过 声明 后 的 这 些 变量 ( 标识 符 ) 会 被 放 在 kernel.1ds 链 接 脚本 指定 的 地 址 处 。 例 如 标识 符 _text， 
ee 线性 地 址 0xffff800000100000 处 ， 从 而 使 得 标识 符 _text 位 于 内 核 程 序 的 代码 段 
起 始 地 址 处 。 随 后 ， 内 核 主 函 数 Start_Kernel 会 将 _text 、_etext 、_edata、_end 等 标识 符 的 地 
址 保存 到 start_code、engd_code、engd_data 和 end _prk 等 成 员 变 量 内 ， 参见 代码 清单 4-67。 


代码 清单 4-67 第 4 章 \ 程 序 \ 程 序 4-8\kernel\main.c 


void Start_Kernel (voiqd) 


Pos.FB_length = (Pos.XResolution * Pos.YResolution * 4 + PAGE 4K SIZE - 1) & 


PAG 


E_4K_MASK; 


memory_management_struct.start_ code = (unsigned long)& _text; 
memory_management_struct.end_ code = (unsigned long)& _etext; 
memory_management_struct.end_ data = (unsigned long)& _edata; 
memory_management_struct.end_ brk = (unsigned long)& _engd; 


经 过 此 番 配 置 后 ，engd_pbrk 成 员 变 量 保存 的 是 内 核 程序 的 结尾 地 址 。 这 个 地 址 后 的 内 存 空间 可 被 


任意 使 用 ， 那么 


现在 将 struct page 与 struct zone 结 构 体 数组 保存 在 此 处 。 这 项 工作 依然 在 


init_memory 了 水 数 里 实现 ， 详 见 代码 清单 4-68 对 init_memory 孙 数 的 扩展 。 


代码 清单 4-68 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.c 


void init_ memory () 


D++; 
if(p->type > 4 || p->length == 0 || p->type < 1) 


bre 


ak; 
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TotalMem = memory_manadgdement_struct.e820 [memory_management_struct.e820_length]. 
address + memory_management_struct.e820[memory_management_struct.e820_ 
length] .length; 


//bits map construction init 


memory_management_struct.bits map = (unsigned long *) ((memory_management_ 
struct.end brk + PAGE 4K_SIZE - 1) & PAGE 4K MASK); 


memory_management_struct.bits_size = TotalMem >> PAGE 2M_ SHIFT; 


memory_management_struct.bits_length = (((unsigned long) (TotalMem >> 
PAGE_2M_SHIFT) + sizeof(long) * 8 - 1) /8)& (~ (sizeof(long) - 1)); 


memset (memory_management_struct.bits_map, 0xff,memory_management_struct. 
bits_length); //init bits map memory 


这 段 程序 首先 追加 判断 条 件 p->length == 0 11 p->type < 1， 来 截断 并 剔除 E820 数 组 中 的 
脏 数 据 。 之 后 ， 根 据 物 理 地 址 空间 划分 信息 计算 出 物理 地 址 空间 的 结束 地 址 ( 目前 的 结束 地 址 位 于 最 
后 一 条 物理 内 存 段 信息 中 ， 但 不 排除 其 他 可 能 性 )。 把 物理 地 址 空间 的 结束 地 址 按 2 MB 页 对 齐 ， 从 而 
统计 出 物理 地 址 空间 可 分 页 数 。 这 个 物理 地 址 空间 可 分 页 数 不 仅 包括 可 用 物理 内 存 ， 还 包括 内 存 空洞 
和 ROM 地 址 空间 ， 将 物理 地 址 空间 可 分 页 数 赋值 给 bits_size 成 员 变 量 。 成 员 变量 bits_map 是 映射 
位 图 的 指针 ， 它 指向 内 核 程序 结束 地 址 eng_brk 的 4KB 上 边界 对 齐 位 置 处 ， 此 举 是 为 了 保留 一 小 段 隔 
离 空间 ， 以 防止 误 操作 损坏 其 他 空间 的 数据 。 接 着 将 整个 bits_map 空 间 全 部 置 位 ， 以 标注 非 内 存 页 
(内 存 空洞 和 ROM 空 间 ) 已 被 使 用 ， 随 后 再 通过 程序 将 映射 位 图 中 的 可 用 物理 内 存 页 复位 。 

接 下 来 再 为 struct page 结 构 体 建立 存储 空间 并 对 其 进行 初始 化 ， 请 继续 看 代码 清单 4-69。 


代码 清单 4-69 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.c 


//pages construction jinit 


memory_management_struct.pages_struct = (struct Page *) (((unsigned long)memory_ 
management_struct.bits_ map + memory_management_struct.bits_ length + 
PAGE_4K_SIZE - 1) & PAGE 4K_ MASK); 


memory_management_struct.pages_size = TotalMem >> PAGE 2M_ SHIFT; 


memory_management_struct.pages_length = ((TotalMem >> PAGE 2M_ SHIFT) * 
sizeof (struct Page) + sizeof(long) - 1) & (~ (sizeof(long) - 1)); 


memset (memory_management_struct.pages_struct, 0x00,memory_management_struct. 
pages_lengthn); //init pages memory 


这 部 分 程序 负责 创建 struct page 结 构 体 数组 的 存储 空间 和 分 配 记录 。struct page 结 构 体 数 
组 的 存储 空间 位 于 bit 映 射 位 图 之 后 ， 数 组 的 元 素数 量 为 物理 地 址 空间 可 分 页 数 ， 其 分 配 与 计算 方式 
同 bit 映 射 位 图 相似 ， 只 不 过 此 处 将 struct page 结 构 体 数组 全 部 清 零 以 备 后 续 的 初始 化 程序 使 用 。 

经 过 struct page 结 构 体 数组 的 初始 化 ， 下 面 再 为 struct zone 结构 体 建立 存储 空间 并 对 其 进 
行 初 始 化 ， 请 继续 看 代码 清单 4-70。 


132 


第 4 章 ”内核 层 


代码 清单 4-70 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.c 


//zones construction init 


memory_management_struct.zones_struct = (struct Zone *) (((unsigned long)memory_ 


management_struct.pages_struct + memory_management_struct.pages_length + 
PAGE_4K_SIZE - 1) & PAGE_4K MASK); 


memory_management_struct.zones_size 二 加 
memory_management_struct.zones_length = (5 * sizeof(struct Zone) + sizeof (long) 
- 1) & (~(sizeof (long) - 1)); 


memset (memory_management_struct.zones_struct, 0x00,memory_management_struct. 


zones_length);} //init zones memory 


这 段 程序 负责 创建 struct zone 结 构 体 数组 的 存储 空间 和 分 配 记 录 ， 整 个 执行 流程 与 上 文 的 
struct page 结 构 体 初始 化 过 程 基 本 相同 。 不 过 ， 目 前 暂时 无 法 计算 出 struct zone 结构 体 数 组 的 


元 素 个 数 ， 


Zone 乡 吉 构 体 来 计算 。 


只 能 将 zones_size 成 员 变 量 赋值 为 0， 而 将 zones_length 成 员 变量 暂且 按照 $ 个 struct 


通过 上 述 存储 空间 的 创建 后 ， 此 刻 将 再 次 遍历 E820 数 组 来 完成 各 数组 成 员 变 量 的 初始 化 工作 。 代 
码 清单 4-71 是 各 数组 成 员 变量 的 详细 初始 化 过 程 。 


代码 清单 4-71 第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.c 


for(i = 0;i <= memory_management_struct.e820_length;i++) 


{ 


unsigned long start,engd; 
struct Zone * 2z; 

EUict Page 人 
unsigned long * b; 


if (memory_management_struct.e820[i].type != 1) 
continue; 
start = PAGE_ 2M ALIGN (memory_ management_struct.e820[i] .address); 
end = ((memory_ management_struct.e820[i].address + memory_ management_struct. 


e820[i].length) >> PAGE 2M_SHIFT) << PAGE 2M_ SHIFT; 
f(lend <= start) 
continue; 


//zone init 


Zz = memory_management_struct .zones_struct + memory_ management_struct.zones_size; 
memory_management_struct.zones_sizet+; 


Zz->zone_start_address = start; 
Z->Zone_enaq_addqress = end; 
Zz->zone_length = end - start; 


Zz->page_using_ count = 0; 
Zz->page_free_count = (end - start) >> PAGE 2M_ SHIFT; 
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Z->total_pages_link = 0; 


z->attribute = 0; 
Z->GMD_struct = &memory_management_struct; 


Zz->pages_length = (end - start) >> PAGE 2M_SHIFT; 
Z->pages_group = (struct Page *) (memory_management_struct.pages,_struct + 
(start >> PAGE 2M_SHIFT)); 


//page init 
p = 2->pages_group; 
for(j = 0;j < 2z->pages_length; j++ , p++) 
ft 

BE-%2oOne Straust Ss 2 

p->PHY_address = start + PAGE 2M_ SIZE * jJ; 
p->attribute = 0; 


p->reference count = 0; 
p->age = 0;，; 


*(memory_management_struct.bits map + ((p->PHY_address >> PAGE 2M_ SHIFT) >> 
6)) ^= 1UL << (p->PHY_address >> PAGE 2M_ SHIFT) % 64; 


} 

这 段 程序 是 初始 化 bit 位 图 映射 、 struct page 结构 体 以 及 struct zones 吉 构 体 的 核心 代码 ， 它 
将 遍历 全 部 物理 内 存 段 信 息 以 初始 可 用 物理 内 存 段 。 代 码 首先 过 滤 掉 非 物 理 内 存 段 ， 再 将 剩 下 的 可 用 
物理 内 存 段 进行 页 对 齐 ， 如 有 果 本 段 物理 内 存 有 可 用 物理 页 , 则 把 该 段 内 存 空间 视 为 一 个 可 用 的 struct 
zone 区 域 空间 ， 并 对 其 进行 初始 化 。 与 此 同时 ， 还 将 对 这 段 内 存 空间 中 的 struct page 结 构 体 和 bit 
i 初始 化 程序 中 的 代码 * (memory_management_struct.bits_map + 
((p->PHY_address >> PAGE 2M_SHIFT) >> 6)) “= 1UL << (p->PHY_address >> 
PAGE_2M_SHIFT) g% 64; 会 把 当前 struct page 结 构 体 所 代表 的 物理 地 址 转换 成 bits_map 映 射 位 图 
中 对 应 的 位 。 由 于 此 前 已 将 bits_map 映 射 位 图 全 部 置 位 ,那么 此 刻 再 将 可 用 物理 页 对 应 的 位 和 1 执行 
异 或 操作 ， 以 将 对 应 的 可 用 物理 页 标注 为 未 被 使 用 。 最 后 还 要 做 一 些 初始 化 过 程 的 收尾 工作 ， 请 继续 
往 下 看 代码 清单 4-72。 


代码 清单 4-72 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.c 


VR 
memory_managemen 


t address 0 to page struct 0; because the 
t_struct.e820[0] .type != 1 
memory_management_struct.pages_struct->zone_struct = memory_management_struct. 
zones_struct; 


memory_management_struct.pages_struct->PHY_address = 0UL; 
memory_management_struct.pages_struct->attribute = 0; 
memory_management_struct.pages_struct->reference_ count = 0; 
memory_management_struct.pages_struct->age = 0; 


LAA 
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memory_management_struct.zones_length = (memory_ management_struct.zones_ size * 
~ (sizeof(long) - 1)); 


sizeof(struct Zone) + sizeof(long) - 1) & ( 
经 过 一 番 遍 历 后 ， 所 有 的 可 用 物理 内 存 页 均 已 被 初始 化 , 但 由 于 0~2 MB 的 物理 内 存 页 包含 多 个 
物理 内 存 段 ， 其 中 还 品 括 了 内 核 程 序 ， 所 以 必须 对 该 页 进行 特殊 初始 化 。 此 后 方 可 计算 出 struct 


zone 区 域 空 间 结构 体 数组 的 元 素数 量 。 


码 清单 4-73。 
代码 清单 4-73 第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.c 


Color_printk (ORANGE, BLACK, "bits_ map:%#0181lx,bits_size:%#0181x,bits_length: 
S$#0181x\n",memory_management_struct.bits_ map,memory_management_struct.bits_ size, 


memory_management_struct.bits_length); 


truct:%#0181x,pages_size:%#0181x,pages_ 


Color_printk (ORANGE, BLACK, "pages_s 
t_struct.pages_struct,memory_management_struct. 


length:%#018l]x\n",memory_managemen 
pages_size,memory_management_struct.pages_length); 


Eruct :g#0181X, Zones_size:g#0181X, Zones_ 


Color_printk (ORANGE, BLACK, "zones_s 
t_struct.zones_struct,memory_management_struct. 


length:%#018lx\n",memory_managemen 
zones_size,memory_management_struct.zones_length); 


ZONE_DMA_INDEX = 0;//need rewrite in the future 
ZONE_NORMAL_INDEX = 0;//need rewrite in the future 


代码 清单 4-73 的 作用 是 在 屏幕 上 打印 出 各 结构 的 统计 信息 ， 其 中 的 全 局 变量 ZzONE_DMA_INDEX 和 和 
ZONE_NORMAL_INDEX 和 暂且 无 法 区 分 ， 故 此 先 将 它们 指向 同一 个 struct zone 区 域 空间 ， 然 后 再 显示 


DC 


struct zone 结 构 体 的 详细 信息 。 请 继续 往 下 看 代码 清单 4-74。 


代码 清单 4-74 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.c 


for(i = 0;i < memory_management_struct.zones_size;i++) 


{ 


//need rewrite in the future 


struct Zone * Z = memory_management_struct.zones_struct + i; 

color_printk (ORANGE, BLACK, "zone_start_address:%$#0181x,zZone_end address:%#018]1x 
zone_length:%#018]lx,pages_group:%#0181lx,pages_length:%#018l]x\n",z->zone_ 
start_address,z->zone_end address,z->zone_length,z->pages_group,z->pages_ 


length); 


if(z->zone_start_address == 0x100000000) 
ZONE_UNMAPED_INDEX = i; 


memory_management_struct.end of_struct = (unsigned long) ((unsigned long)memory_ 


management_struct.zones_struct + memory_management_struct.zones_length + sizeof 
(long) * 32) & ( ~ (sizeof (long) - 1)); ////need a blank to separate memory_ 


management_struct 
此 段 程序 遍历 显示 各 个 区 域 空间 结构 体 struct zone 的 详细 统计 信息 ， 如 果 当 前 区 域 的 起 始 地 址 
是 0x100000000， 就 将 此 区 域 索引 值 记 录 在 全 局 变量 ZONE_UNMAPED_INDEX 内 ， 表 示 从 该 区 域 空间 
开始 的 物理 内 存 页 未 曾经 过 页 表 映 射 。 最 后 还 要 调整 成 员 变 量 eng_of_struct 的 值 ， 以 记录 上 述 结 
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构 的 结束 地 址 ， 并 且 预 留 一 段 内 存 空间 防止 越界 访问 。 
内 存 管理 单元 初始 化 完毕 后 ， 还 必须 初始 化 内 存 管理 单元 结构 ( struct Global_Memory_ 
Descriptor ) 所 占 物 理 页 的 struct page 结 构 体 ， 请 看 代码 清单 4-75。 


代码 清单 4-75 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.c 


Color_printk (ORANGE, BLACK, "start_code:%#0181x,end_code:%#0181x,engd_data:%#0181x, 
end_brk:%#018l1lx,end_of_struct:%#018]x\n",memory_management_struct.start_code, 
memory_management_struct.end_ code,memory_management_struct.end data,memory_ 
management_struct.end brk, memory_management_struct.end of_struct); 


i = Virt_To_Phy (memory_management_struct.end of_struct) >> PAGE 2M_ SHIFT; 


for(j = 0;j <= i;j++) 
{ 
page_init (memory_management_struct.pages_struct + j,PG_ PTable Maped | PG_ Kernel_ 
Init | PG Active | PG Kernel); 
} 


这 部 分 程序 不 仅 把 start_code、engd_code、end_data、eng_brk 以 及 enqd_of_struct 这 5 个 
成 员 变 量 的 数值 打印 在 屏幕 上 , 还 将 系统 内 核 与 内 存 管理 单元 结构 所 占 物理 页 的 page 结 构 体 全 部 初始 
化 成 PG_PTable_Maped( 经 过 页 表 映 射 的 页 ) | PG_Kernel_Init (内 核 初 始 化 程序 ) | PG_Active 
(使 用 中 的 页 ) | PG_Kernel (内 核 层 页 ) 属性 。 

函数 init_memory 的 剩余 代码 用 于 清空 页 表 项 ,这 些 页 表 项 曾经 用 于 一 致 性 页 表 映 射 ， 此刻 无 需 
再 保留 一 致 性 页 表 映 射 ， 从 而 通过 代码 清单 4-76 清 空 这 些 页 表 项 。 


代码 清单 4-76 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.c 


Global_CR3 = Get_gdt (); 


Color_printk (INDIGO,BLACK, "Global_ CR3\t:%#0181lx\n",Global_CR3); 

Color_printk (INDIGO,BLACK,"*Global_CR3\t:%#018l]x\n",*Phy_To_Virt (Global_CR3) & 
(~Oxff£)); 

Color_printk (PURPLE,BLACK,"**Global_CR3\t:%#018]x\n",*Phy_To_Virt (*Phy_To_Virt 

(Global_CR3) & (~0xff)) & (~Oxff)); 


for(i = 0;i < 10;i+t+) 
*(Phy_To_Virt (Global_CR3) + i) = 0UL; 
EESheelB.() 


这 有 段 程序 中 的 Get_gdat 函数 用 于 读 取 CR3 控 制 寄存 器 内 保存 的 页 目录 基地 址 。 然 后 在 屏幕 中 打印 
几 层 页 表 的 首 地 址 。 由 于 页 表 项 只 能 保存 物理 地 址 ， 那 么 根据 内 核 执 行头 程序 ( 文件 nead.s ) 初始 
化 的 页 表 项 可 知 ，Global_cR3 变 量 保存 的 物理 地 址 是 ox0000000000101000，* Global_cR3 中 保存 
的 物理 地 址 是 0x0000000000102000， 而 ** Global_cR3 中 保存 的 物理 地 址 是 ox0000000000103000。 

紧 接 着 为 了 消除 一 致 性 页 表 映 射 ， 特 将 页 目录 (PML4 页 表 ) 中 的 前 10 个 页 表 项 清 零 ( 其 实 只 要 
将 第 一 项 清 零 就 可 以 了 )。 虽然 已 将 这 些 页 表 项 清 零 ， 但 它们 不 会 立即 生效 ， 必 须 使 用 flush_t1b 也 
数 才 能 让 更 改 的 页 表 项 生效 ， 代 码 清单 4-77 是 Elush_tlb 困 数 的 程序 实现 。 
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代码 清单 4-77 第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.h 


#define flush tlb() \ 
do x 
{ N 
unsigned long tmpreg; N 
_asm _ volatile _ ( \ 
movg SSCI3 $0 \n\t \ 
movg %$0 SSCI3 NTINE \ 
:"=r" (tmpreg) NN 
: N 
: "memory" Ny 
)3 \ 

}while(0) 


宏 函 数 flush_tlp 的 代码 实现 非常 简单 ， 它 仅 重 新 赋值 了 一 次 CR3 控 制 寄存 器 ， 以 使 更 改 后 的 页 


表 项 生效 。 


其 实在 更 改 页 表 项 后 ， 原 页 表 项 依然 缓存 于 TLB (Translation Lookaside Buffer， 旁 路 转换 组 训 
存储 器 ) 内 ， 重 新 加 载 页 目录 基地 址 到 CR3 控 制 寄存 带 将 迫使 TLB 自动 刷新 ， 这 样 就 达到 了 更 新 页 
表 项 的 目的 。 而 Get_gadt 函 数 仅 仅 使 用 了 本 函数 的 前 半 部 分 功能 ， 代 码 清单 4-78 是 Get_gdt 函 数 的 


代码 实现 。 


代码 清单 4-78 第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.h 


inline unsigned long * Get_gdt() 


{ 
unsigned long * tmp; 
_asm _ volatile _ 


return tmp; 


} 


数 调 用 者 。 


: "memory" 


> 


函数 Get_gat 的 作用 仪 仅 是 将 CR3 控 制 寄存 器 里 的 页 目录 物理 基地 址 读 取 出 来 ， 并 将 其 传递 给 函 


至 此 ， 函 数 init_memory 还 剩 一 个 bage_init 函 数 没有 讲解 。page_init 函 数 主 要 负责 初始 化 
目标 物理 页 的 struct page 结 构 体 ， 并 更 新 日 标 物理 页 所 在 区 域 空间 结构 struct zone 内 的 统计 信 
息 ， 函 数 实现 如 代码 清单 4-79 所 示 。 


代码 清单 4-79 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.c 


unsigned long page_init(struct Page * page,unsigned long flags) 


{ 
if(!page->attribute) 
{ 


*(memory_management_struct.bits map + ((page->PHY_address >> PAGE_ 
2M_SHIFT) >> 6)) |= 1UL << (page->PHY_address >> PAGE 2M_ SHIFT) % 64; 


page->attribute = 


flags; 
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page->reference_count++; 

page->zone_struct->page_using_count++; 
page->zone_struct->page_free _ count--; 
page->zone_struct->total_pages_link+t+; 


} 


else if((page->attribute & PG_ Referenced) || (page->attribute & PG_K_Share_To_U) 
1|| (flags & PG Referenced) || (flags & PG KkK_Share_To_U)) 

{ 
page->attribute |= flags; 


page->reference_count++; 


page->zone_struct->total_pages_link++; 
} 
else 


{ 
*(memory_management_struct.bits map + ((page->PHY_address >> 
PAGE_2M_SHIFT) >> 6)) |= 1UL << (page->PHY_address >> PAGE_ 2M_ SHIFT) % 64; 
page->attribute |= flags; 
} 
return 0; 


} 

这 个 函数 对 struct page 结 构 体 进行 初始 化 ， 对 于 一 个 加 新 的 页 面 而 言 ，page_init 函 数 是 对 
页 结构 进行 初始 化 。 如 果 当 前 页 面 结构 属性 或 参数 flags 中 含有 引用 属性 ( PG_Referenced ) 或 共享 
属性 ( PG_K_Share_To_U )， 那 么 就 只 增加 struct page 结构 体 的 引用 计数 和 struct zone 结构 体 
的 页 面 被 引用 计数 。 否 则 就 仅仅 是 添加 页 表 属 性 ， 并 置 位 pit 映射 位 图 的 相应 位 。 

经 过 漫长 的 程序 讲解 ， 内 存 信息 的 初始 化 工作 暂且 告 一 段落 。 下 面 就 让 我 们 来 看 看 程序 的 运行 效 
果 ， 如 图 4-16 所 示 。 


Bochs x86-64 emulator, http://bochs.sourceforge.net/ 


J000000000100900 D00007fef0000 
00000007Et+0000 000000010000 
ff: 0000000030000 


Og th: Ox0000000000000100 
00000000008 
)00000000000 )000000000050 


)000000010200 
000000010300 


图 4-16 ”显示 全 局 内 存 信息 
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从 程序 的 运行 结果 可 以 看 出 ， 整 个 虚拟 平台 只 有 一 段 物 理 内 存 可 供 物 理 内 存 页 分 配 使 用 ， 可 分 配 
的 物理 页 数量 为 1022 个 页 面 。 内 核 代 码 的 起 始 地 址 是 oxffff800000100000， 代 码 段 的 结束 地 址 是 
0xffff8000001095d0 ， 数 据 段 的 结束 地 址 是 0xffff8000001106a0， 内 核 程序 的 结束 地 址 是 
0xffff800000114a08， 和 初始 化 的 数据 区 结束 地 址 是 0xffff80000012a150。 页 目录 (PML4 页 表 ) 
的 首 物理 地 址 位 于 0x101000 处 ，PDPT 页 表 的 首 物理 地 址 位 于 0x102000 处 ，PD 页 表 的 首 物理 地 址 位 
于 0x103000 处 。 

完成 这 些 数 据 的 初始 化 以 后 ， 我 们 现在 可 以 实现 可 用 物理 内 存 页 的 分 配 功能 

2. 实现 可 用 物理 内 存 页 的 分 配 函 数 

可 用 物理 内 存 页 的 分 配 功能 是 在 上 节 内 容 的 基础 上 实现 的 。 可 用 物理 内 存 页 的 分 配 函 数 alloc_ 
pages， 会 从 已 初始 化 的 内 存 管理 单元 结构 中 搜索 符合 申请 条 件 的 struct page， 并 将 其 设置 为 “使 
用 状态 ”， 这 个 函数 的 具体 实现 如 代码 清单 4-80 所 示 。( 注意 ， 此 时 的 alloc_pages 函 数 可 能 会 有 设计 
缺陷 以 及 欠 考 虑 的 地 方 ， 请 读者 不 要 太 过 拘泥 于 细节 。 ) 


代码 清单 4-80 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.c 


/* 
number: number <= 64 
Zone_select: zone select from dma , mapped in pagetable , unmapped in pagetable 
page_flags: struct Page flages 

A 


struct Page * alloc pages(int zone_ select,int number,unsigned long page_ flags) 
{ 

Tt, 

unsigned long page = 0; 

int zone_start = 0; 

int zone_end = 0; 


switch(zone_select) 
{ 
Case ZONE_DMA: 
zone_start = 0; 
zone_engd = ZONE_DMA_INDEX; 
break; 


Case ZONE_NORMAL: 
Zone_start = ZONE_ DMA_INDEX; 
zone_end = ZONE_ NORMAL INDEX; 
break; 


Case ZONE_UNMAPED: 
Zone_start = ZONE_UNMAPED_INDEX; 
zone_end = memory_management_struct.zones_size - 1; 
break; 


default: 
color_printk (RED,BLACK, "alloc_ pages error zone_ select index\n"); 
return NULL; 
break; 
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在 这 部 分 程序 中 ， 首 先 通 过 注释 对 alloc_pages 隐 数 进行 描述 ， 之 所 以 把 注释 也 写 出 来 ， 不光 是 


为 了 让 读者 便于 向 函数 传递 参数 ， 同 时 也 是 为 了 说 明 这 个 函数 目前 能 够 实现 的 功能 ， 即 它 最 多 可 从 
区 


DMA 区 域 空 间 、 已 映射 页 表 区 域 空间 或 者 未 映射 页 表 


或 空间 里 ， 一 次 性 申请 64 个 连续 的 物理 页 ， 并 


设置 这 些 物理 页 对 应 的 struct page 属 性 。 

函数 alloc_pages 会 根据 zone_select 人 参数 来 判定 需要 检索 的 内 存 区 域 空 间 ， 如 果 zone_ 
select 参 数 无 法 匹配 到 相应 的 区 域 空间 ， 则 打印 错误 日 志 信 息 并 使 函数 返回 。 目 前 ，Bochs 虚 拟 机 只 
能 开辟 出 2 GB 的 物理 内 存 空间 ， 以 至 于 虚拟 平台 仅 有 一 个 可 用 物理 内 存 段 ， 因 此 ZONE_DMA_INDEX、 


ZONE_NORMAL_INDEX 和 ZONI 


代表 的 内 存 区 域 空间 。 


Ey 


Ly 


_UNMAPED_INDEX 三 个 变量 均 代 表 同 一 内 存 区 域 空 间 ， 即 使 用 默认 值 0 | 


既然 已 确定 检测 的 目标 内 存 区 域 空 间 ， 接 下 来 将 从 该 区 域 空间 中 遍历 出 符合 申请 条 件 的 struct 


page 结 构 体 组 。 请 继续 往 下 看 a11oc_pages 了 水 数 的 后 续 部 分 。 


代码 清单 4-81 


第 4 章 \ 程 序 \ 程 序 4-8\kernel\memory.c 


for(i = zone_ start;i <= zone_end; i++) 


a 


struct Zone * 2z; 

unsigned long j; 

unsigned long start,end,1length; 
unsigned long tmp; 


if( (memory_management_struct.zones_struct + i)->page_free count < number) 
continue; 


Z = memory_management_struct.zones_struct + i; 
start = 2->zone_start._address >> PAGE 2M_SHIFT; 
end = z->zone_end_address >> PAGE 2M_ SHIFT; 
length = z->zone_length >> PAGE_ 2M_SHIFT; 


tmp = 64 - start % 64; 
for(j = start;j <= end;j += j %$ 64 ? tmp : 64) 
{ 
unsigned long * p = memory_management_struct.bits map + (j >> 6); 
unsigned long shift = j % 64; 
unsigned long k; 
for(k = shift;k < 64 - shift;k++) 


{ 


if( !(((*p >> k) | (*(p + 1) << (64 - k))) & (number == 64 ? 
OREEEFEEEEfEEEEEEFEEUVL :3 (LUL << Tunber) = 1))Y 3 
{ 
unsigned long :> 
page =j+k-1; 
for(l = 0;1 < number;1++) 


{ 
struct Page * x = memory_management_struct.pages_struct + 
page + 1; 
page_init (x,page_flags); 
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goto fingd_ free pages; 


} 
return NULL; 


findq_free_pages : 
return (struct Page *) (memory_management_struct.pages_struct + page); 


这 部 分 代码 从 目标 内 存 区 域 空间 的 起 始 内 存 页 结构 开始 逐一 遍历 ， 直 至 内 存 区 域 空间 的 结尾 。 由 
于 起 始 内 存 页 结构 对 应 的 BIT 映射 位 图 往往 位 于 非 对 齐 ( 按 UNSIGNED LONG 类 型 对 齐 ) 位 置 处 ， 而 且 
每 次 将 按 UNSIGNED LONC 类 型 作为 遍历 的 步 进 长 度 ， 同 时 步 进 过 程 还 会 按 UNSITGNED LONG 类 型 对 齐 。 
因此 ， 起 始 页 的 BIT 映射 位 网 只 能 检索 tmpb = 64 - start % 64; 次 ， 随 后 借助 代码 j += j % 64 ? 
tmp : 64 将 索引 变量 j 调 整 到 对 齐 位 置 处 。 为 了 保证 alloc_pages 函 数 可 检索 出 64 个 连续 的 物理 页 ， 
特使 用 程序 (*p >> k) | (*(p + 1) << (64 - k))， 将 后 一 个 UNSIGNED LONG 变 量 的 低位 部 分 
补 齐 到 正在 检索 的 变量 中 ， 只 有 这 样 才能 保证 最 多 可 申请 64 个 连续 的 物理 页 。 

值得 一 提 的 是 ， 左 移 符 号 << 对 应 的 汇编 指令 是 SHL ( Shift Logical Lefft， 好 辑 左 移 指令 )， 对 于 一 
个 64 位 的 寄存 器 来 说 ， 其 左 移 范围 为 0~63。 当 申请 值 number 为 64 时 ， 必 须 经 过 特殊 处 理 才 可 进行 位 
图 检索 ， 这 便 是 程序 number == 64 ? 0xffffffffffffffffUL : ((1UL << number) - 1) 的 
由 来 。 

最 后 ， 如 果 检 索 出 满足 条 件 的 物理 页 组 ， 便 将 BIT 映 射 位 图 对 应 的 内 存 页 结构 struct page 初 始 
化 ， 并 返回 第 一 个 内 存 页 结构 的 地 址 。 

至 此 ， 一 个 可 用 物理 内 存 页 的 分 配 函 数 就 基本 实现 了 。 现 在 让 我 们 申请 64 个 物理 页 测试 一 下 该 函 
数 的 运行 效果 ， 请 看 代码 清单 4-82 编 写 的 测试 程序 。 


代码 清单 4-82 ”第 4 章 \ 程 序 \ 程 序 4-8\kernel\main.c 


void Start_Kernel (voidi) 


< 


struct Page * page = NULL; 


color_printk(RED,BLACK, "memory_management_struct.bits map:%#0181lx\n",*memory_ 
management_struct.bits_ map); 

Color_printk (RED,BLACK, "memory_management_struct.bits map:%#0181lx\n",* (memory_ 
management_struct.bits map + 1)); 


page = alloc pages (ZONE_NORMAL, 64,PG_ PTable Maped | PG Active | PG Kernel); 


for(i = 0;i <= 64;i++) 
{ 
color_printk (INDIGO,BLACK, "page®%d\tattribute:%#0181lx\taddress:%#0181x\t",i, 
(page + i)->attribute, (page + i)->PHY_address); 
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i++; 
Color_printk (INDIGO,BLACK, "page®%d\tattribute:%#0181lx\taddress:%#018]x\n",i, 
(page + i)->attribute, (page + i)->PHY_address); 


Color_printk (RED,BLACK, "memory_management_struct.bits map:%#0181x\n",*memory_ 
management_struct.bits_map); 

Color_printk (RED,BLACK, "memory_management_struct.bits map:%#0181x\n",* (memory_ 
management_struct.bits map + 1)); 


测试 代码 在 Start_KXernel 国 数 中 多 次 调用 alloc_pages 函 数 申请 物理 页 ， 共 连续 申请 64 个 可 用 
物理 页 ， 并 把 内 存 页 结构 的 属性 和 起 始 地 址 ， 以 及 申请 前 后 的 BIT 映射 位 图 信息 打印 在 屏幕 上 ， 图 4-17 
是 测试 程序 的 运行 效果 。 


Bochs x86-64 emulator, http//bochs.sourceforge.net/ 


图 4-17 ”可 用 物理 内 存 页 函数 实现 效果 


从 图 中 可 以 看 出 ， 虚 拟 平台 的 前 64 个 (0~63 ) 内 存 页 结构 的 属性 值 已 被 设置 为 0x91， 而 目 物 理 
地 址 从 ox200000 开 始 ， 这 与 zone_start_address 成 员 变量 记录 的 地 址 值 是 一 致 的 ， 进 而 说 明 
alloc 人 s 间 的 起 始 地 址 处 分 配 物理 内 存 页 区 域 空 间 的 第 64 和 65 项 内 存 页 结构 
的 属性 依然 是 0， 说 明 这 两 个 物理 页 未 被 分 配 过 。 与 此 同时 ，BIT 映 射 位 图 也 从 原来 的 0x0000 
0000,00000001( 第 1 个 2 MB 的 物理 页 存放 着 内 核 程 序 和 内 存 管理 单元 结构 信息 等 内 容 ， 这 个 页 已 
经 在 init_memory 函 数 中 被 初始 化 )， 变 为 现在 的 0x1, ffffffff, ffffffff， 同 样 也 是 置 位 64 个 
映射 位 。 

以 上 是 可 用 物理 页 分 配 函 数 的 第 一 个 版 本 ， 虽 然 它 很 不 完善 ， 有 诸多 缺陷 、 漏 洞 和 不 足 ， 但 它 已 
迈 出 了 从 无 到 有 的 第 一 步 。 接 下 来 让 我 们 感受 一 下 中 断 的 魅力 。 
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4.6 ”中断 处 理 


中 断 大 多 是 由 外 部 硬件 设备 ( 如 鼠标 、 键 盘 、 硬 盘 、 光 驱 等 ) 产生 ， 并 向 处 型 


器 发 送 事件 请 求 信 


号 。 中 断 请 求 信 号 可 能 是 关于 数据 读 写 操作 的 ， 也 可 能 是 关于 对 外 部 设备 控制 的 。 由 于 Intel 处 理 器 只 


有 一 个 外 部 中 断 引 脚 INTR， 为 了 使 处 到 
有 外 部 设备 的 中 断 请 求 信号 汇总 到 中 断 控 


信号 依次 发 往 处 理 需 的 外 部 中 断 引 脚 INTR。 


在 多 核 处 理 回 出 现 之 前 ，8259A PIC ( Programmable Interrupt Controller ， 可 编程 中 断 控 制 器 ) 是 
由 器 ， 在 很 多 教科 书 和 资料 中 经 常会 提 及 它 。 自 


PC 机 使 用 最 为 普遍 的 中 断 控 和 


周 器 ， 再 


经 由 中 断 控 和 


器 能 够 同时 接收 多 个 硬件 设备 发 送 来 的 中 断 请 求 信 号 ,， 特 将 所 
出 器 的 仲裁 后 ， 有 选择 性 地 将 中 断 请 求 


从 多 核 处 理 需 面世 后 ， 


8259APIC 对 多 核 处 理 器 的 支持 已 逐渐 变 得 力不从心 从 而 出 现 了 后 来 的 APIC( Advanced Programmable 
Interrupt Controller， 高 级 可 编程 中 断 控 制 器 )。 对 于 操作 系统 研发 的 初级 篇 ， 本 节 将 以 8259A PIC 作为 
人 和信 门 学习 芯 片 ， 待 到 第 10 章 再 对 APIC 芯 片 的 功能 予以 介绍 。 


4.6.1 8259A PIC 


8259APIC 作 为 单 核 处 到 


器 时 代 的 经 典 中 断 控制 器 ， 已 被 PC 机 广泛 使 用 。 在 通常 情况 下 ，PC 机 会 


采用 两 片 82259A 忌 片 级 联 的 方式 ， 将 外 部 硬件 设备 的 中 断 请 求 引 脚 与 处 理 器 的 中 断 接收 引 脚 关联 起 


来 ， 图 4-18 描 绘 了 两 片 8259A 蕊 片 的 级 联结 构 。 


时 钟 IRQO 一 IR0 

键盘 IRQI1 一 > IR1 INTF INTR 
级 联 从 片 IRQ2 “一 > IR2 8259A 

捉 行 D2 IRQ3 一 -> IR3 一个 CPU 
串 行 口 LIRQ4 一 -一 > IR4 

并 行 口 2 IRQ5 一 -| IR5 数据 D7-D0 

软盘 IRQ6 一 "| IR6 

并 行 1 IRQ7 — yy IR7 

实时 钟 IRQ8 — "| IR0 

重 定向 IRQ2 IRQ9 一 > IRIl INT 

保留 IRQI0 — >» IR2> 8259A 

保留 IRQI1 一 1R3 从 世上 

PS2 鼠 标 IRQI2 TIR4 

协 处 理 器 。 JRQI3 一 一 > JIR5 

硬盘 ] IRQI4 > IR6 

硬盘 2 IRQ15 ”一 >» IR7 


引 脚 相连 ; 男 一 个 8259A 中 断 控 制 絮 作为 从 芯片 ， 与 主 8259A 蕊 片 的 IR23 引 | 脚 相连 。 其 他 中 


图 4-18 ”8259A 级 联 示 意图 


从 图 中 可 知 , 在 两 个 8259A 世 片 级 联 的 过 程 中 , 一 个 8259A 中 断 控制 器 作为 主 芯片 , 与 CPU 的 INTR 


IR 将 与 外 部 硬件 设备 的 
部 硬件 设备 相连 。 


断 请 求 引 肢 


' 断 请 求 引 脚 相连 。 在 通常 情况 下 ，8259A 中 断 控制 器 会 按照 表 4-6 的 规划 与 外 
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表 4-6 ”8259A 的 中 断 引 脚 与 外 部 设备 对 照 表 


8259A PIN 典型 中 断 请 求 源 
人 IR0 timer 时 钟 
IR1 键盘 
IR2 级 联 从 8259A 芯 片 
IR3 串口 2 
IR4 串口 1 
IR5 并 口 2 
IR6 软盘 驱动 器 
IR7 并 口 1 
从 芯片 IR0 CMOS RTC 实 时 时 钟 
了 有 1 重 定向 到 主 8259A 芯 片 的 了 2 引 脚 
IR2 保留 
IR3 保留 
IR4 PS/2 鼠 标 
IR5 协 处 理 器 
IR6 SATA 主 硬盘 
IR7 SATA 从 硬盘 


既然 8259A 被 叫 作 可 编程 中 断 控 制 器 ,那么 它 必 定 拥有 一 系列 可 配置 的 寄存 器 。 一 个 8259APIC 包 
含 两 组 寄存 右 , 分 别 是 ICW( Initialization Command Word, 初始 化 命令 字 ) 寄 存 器 组 和 OCW(Operational 
Control Word， 操 作 控 制 字 ) 寄存 器 组 。 其 中 ，ICW 寄 存 器 组 用 于 初始 化 中 断 控制 器 ， 在 8259A 芯 片 正 
常 工作 前 必须 先 对 ICW 寄 存 器 组 进行 设置 ; OCW 寄 存 器 组 用 于 操作 中 断 控 制 器 ， 在 8259A 芯 片 的 工作 
过 程 中 ， 读 者 可 随时 通过 OCW 寄 存 器 组 设置 和 管理 中 断 控制 器 的 工作 方式 。 

PC 机 采用 IO 地 址 映射 方式 ， 将 8259A PIC 的 寄存 器 映射 到 IO 端口 地 址 空间 ， 因 此 必须 借助 IN 和 
OUT 汇 编 指令 才能 访问 8259A PIC。 主 8259A 芯 片 的 IO 端口 地 址 是 20p 和 21h， 从 8259A 芯 片 的 IO 端口 
地 址 是 A0h 和 Alh。 图 4-19 是 8259APIC 的 内 部 结构 ,通过 IO 端口 可 操作 中 断 控制 器 的 ICW 和 OCW 寄 存 
器 组 ， 进 而 配置 IRR、PR、ISR、IMR 等 寄存 器 。 

到 中 的 IRR ( Interrupt Request Register， 中 断 请 求 寄存 器 ) 用 来 保存 IR0~IR73 引 脚 上 接收 的 中 断 请 
求 ， 该 寄存 器 有 8 bit 分 别 对 应 外 部 引 脚 IR0~IR7。IMR ( Interrupt Mask Register， 中 断 屏蔽 寄存 器 ) 用 
于 记录 屏蔽 的 外 部 引 脚 ， 该 寄存 器 同样 也 有 8 位 分 别 对 应 IRR 寄 存 融 中 的 每 一 位 ， 当 IMR 中 的 某 一 位 或 
某 几 位 被 置 位 时 ， 相 应 的 IR 引 脚 的 中 断 请 求 信号 将 会 被 屏 珊 ， 不 予 处 理 。PR ( Priority Resolver， 优 先 
级 解析 器 ) 将 从 IRR 寄 存 器 接收 的 中 断 请 求 中 选取 最 高 优先 级 者 ， 将 其 发 往 ISR ( In-Service Register， 
正在 服务 寄存 器 )。ISR 寄 存 器 记录 着 正在 处 理 的 中 断 请 求 ， 同 时 8259A 忌 片 还 会 向 CPU 发 送 一 个 INT 
信号 ， 而 CPU 会 在 每 执行 完 一 条 指令 后 检测 是 否 接 收 到 中 断 请 求 信号 。 如 果 接 收 到 中 断 请 求 信号 ， 处 
理 器 将 不 再 继续 执行 指令 ， 转 而 向 8259A 芯 片 发 送 一 个 INTA 来 应 答 中 新 青 求 信号 。8259A 芯 片 收 到 这 
ee 便 会 把 这 个 中 断 请 求 保 存 到 ISR 中 ( 置 位 相应 寄存 器 位 )。 与 此 同时 ， 复 位 IRR 寄 存 兢 
中 的 对 应 中 断 请 求 信号 位 ， 以 表示 中 断 请 求 正 在 处 理 。 
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主 8259A CPU 
D7-DO 
中 断 屏蔽 寄存 器 数据 总 线 
(IMR) 缓冲 
ee 中 断 开关 标志 一 STI 
汪汪 Nd 中 断 请 求 优先 级 正在 服务 不 心 | CLI 
1 加 寄存 器 解析 器 | | 寄存 器 
IR3 一 | (IRR) | (PR) le> (ISR) 
TIR4 一 >| 
TIRS 一 | 
TIR6 一 说 
IR7 一 人 | 
控制 逻辑 等 外 
初始 化 命令 字 | | 操作 命令 字 索 T 中 断 服务 处 理 程序 
寄存 器 组 ICWs E 
中 断 服务 处 理 程序 n 
START : | 
PUSH AX 
从 8259A MOV AL ，20h 
OUT 20h ，AL 
INT POP AX 
IRET 
内 存 


量 号 后 ， 随 即 跳 转 至 中 断 


INTA 脉 冲 信 号 的 结尾 处 复位 正在 服务 寄存 器 ISR 的 对 应 位 。 如 果 8259A 芯 片 采 用 非 自 
E 程 序 的 结尾 处 向 8259A 忌 片 发 送 一 个 EOI ( End of Interrupt 
愉 中 断 请 求 来 自 级 联 的 从 8259A 蕊 片 ， 则 必须 向 两 个 芯片 都 发 送 EOI 命 令 。 此 


么 CPU 必 须 在 中 汤 处 型 
来 复位 ISR 的 对 应 位 。 如 引 


图 4-19 8259A 和 CPU 的 整体 工作 村 


We 


医 


随后 ，CPU 还 会 向 8259A 芯 片 发 出 第 二 个 INTA 脉 冲 信号 ， 其 
号 ， 此 时 8259A 芯 片 会 把 


! 靳 向 量 号 (8 位 数据 ) 发 送 到 数据 总 线 上 
描述 符 表 IDT 检 索 向 量 号 对 应 的 门 描述 符 ， 并 执行 门 描述 符 中 的 处 到 


作 上 


j 是 通知 8259A 芯 片 发 送 中 断 向 量 
共 CPU 读 取 。 当 CPU 接收 到 中 断 向 


程序 。 


如 果 8259A 世 片 采用 AEOI ( Automatic End of Interrupt， 自 动 结束 中 断 ) 方式 ， 那 么 它 会 在 第 二 个 


后 8259A 


组 


顺序 进行 初始 化 。 主 8259A 芯 片 的 ICW1 寄 存 器 映射 到 IO 端 
映射 到 IO 端口 21h 地 址 处 ; 从 8259A 芯 片 的 CW1 寄 存 器 映射 到 I/O 端 


毕 续 判断 下 一 个 


= 


取 局 


1. 初始 化 命令 字 ICW 
ICW 寄 存 器 组 共 包 含 ICW1、ICW2、ICW3 、ICW4 四 个 寄存 器 ， 它 们 必须 按照 从 ICW1 到 ICW4 的 


优先 级 的 


P 斯 ， 并 重复 上 述 处 理 过 程 。 
配置 ICW 寄 存 器 组 和 OCW 寄 存 器 组 ， 可 控制 83259A 世 片 的 初始 模式 与 运行 模式 。 接 下 来 讲 
P 各 寄存 器 的 含义 。 


动 结束 方式 ， 那 
， 结 束 中 断 ) 命令 ， 


解 


口 20h 地 址 处 ，ICW2、ICW3、ICW4 寄 存 器 
口 A0h 地 址 处 , ICW2、ICW3、ICW4 


寄存 器 映射 到 IO 端口 Alh 地 址 处 。 对 主 / 从 8259A 世 片 的 初始 化 顺序 可 以 是 先后 式 的 ( 先 配置 主 芯片 的 
ICW 寄 存 器 组 ， 再 配置 从 芯片 的 ICW 寄 存 器 组 ) 或 交替 式 的 〈 先 配置 主 /从 芯片 的 ICW1 寄 存 器 ， 再 设 


置 主 /从 芯片 的 ICW2 寄 存 器 ， 依 次 类 推 直至 ICW4 寄 存 器 )。 
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@ ICW1 寄 存 器 
ICW1 寄 存 器 共有 8 位 ， 表 4-7 记 录 着 ICW1 寄 存 器 各 位 的 功能 描述 


表 4-7 ”1ICW1 寄 存 器 位 功能 说 明 


位 描述 
5~7 对 于 PC 机 ， 该 位 必须 为 0 

4 对 于 ICW， 该 位 必须 为 1 

3 触发 模式 ， 现 已 忽略 ， 必 须 为 0 
忽略 ， 必 须 为 0 

1 1= 单 片 8259A，0= 级 联 8259A 

0 1= 使 用 ICW4，0= 不 使 用 ICW4 


实际 上 ， 主 /从 8259A 芯 片 的 ICW1 寄 存 器 都 固定 初始 化 为 00010001B (〈 11h )。 在 Linux 内 核 的 早期 
版 本 (2.6 之 前 是 这 样 ，2.6 之 后 未 曾 论 证 过 ， 但 推测 可 能 未 改变 ) 中 都 初始 化 为 11h。 

@ ICW2 寄 存 器 

ICW2 是 一 个 8 位 的 寄存 器 ， 其 每 个 位 的 含义 请 参见 表 4-8。 


表 4-8 1ICW2 寡 存 器 位 功能 说 明 


位 描述 
3~7 中 断 向 量 号 
0~2 0 


对 于 中 断 向 量 号 并 没有 特殊 要 求 ， 通 常情 况 下 ， 主 8259A 世 片 的 中 断 向 量 号 设置 为 20h ( 占用 中 断 
向 量 号 20h~27h )， 从 8259A 世 片 的 中 断 向 量 号 设置 为 28h ( 占用 中 断 问 量 号 28h~2fh )。 

@ ICW3 寄 存 器 

ICW3 同 样 是 个 8 位 的 寄存 器 ， 对 于 主 /从 8259A 世 片 而 言 ， 它 们 的 ICW3 寄 存 器 含义 各 不 相同 ， 
表 4-9 撒 述 了 主 8259A 世 片 的 ICW3 寄 存 占 功能 。 


表 4-9 ” 主 8259A 芯 片 的 ICW3 寡 存 器 位 功能 说 明 


位 描述 

7 1=IR7 级 联 从 芯片 ，0= 无 从 芯片 
6 1=IR6 级 联 从 芯片 ，0= 无 从 芯片 
5 1=IR5 级 联 从 芯片 ，0= 无 从 芯片 
4 1=IR4 级 联 从 芯片 ，0= 无 从 芯片 
3 1=IR3 级 联 从 芯片 ，0= 无 从 芯片 
2 1=IR2 级 联 从 芯片 ，0= 无 从 芯片 
1 1=IR1 级 联 从 芯片 ，0= 无 从 芯片 
0 1=IR0 级 联 从 芯片 ，0= 无 从 蕊 片 

从 表 4-9 可 知 ， 主 8259A 芯 片 的 ICW3 寄 存 器 用 于 记录 各 耻 引 脚 与 从 8259A 芯 片 的 级 联 状态 。 而 从 


8259A 芯 片 的 ICW3 寄 存 器 则 用 于 记录 其 与 主 82$9A 芯 片 的 级 联 状 态 ， 表 4-10 是 从 825$9A 芯 片 的 ICW3 寄 
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存 器 位 说 明 。 
表 4-10 ”从 8259A 芯 片 的 ICW3 寡 存 器 位 功能 说 明 
位 描 述 
3~7 必须 为 0 
0~2 从 芯片 连接 到 主 芯片 的 信 引 脚 号 


根据 图 4-18 描 绘 的 主 /从 8259A 芯 片 级 联结 构 可 以 看 出 ， 主 8259A 芯 片 的 CW3 寄 存 右 值 被 设置 为 
04h， 从 8259A 世 片 的 ICW3 寄 存 器 值 被 设置 为 02h。 

@ ICW4 寄 存 器 

ICW4 寄 存 器 依然 只 有 8 位 ， 每 个 位 的 含义 如 表 4-11 所 示 。 


表 4-11 1ICW4 寡 存 器 位 功能 说 明 


位 描 述 

5~7 恒 为 0 

4 1=SFNM 模 式 ，0=FNM 模 式 

3 缓冲 模式 : 00= 无 缓冲 模式 ，10= 从 芯片 缓冲 模式 ，11= 主 芯片 缓冲 模式 
1 1=AEOI 模 式 ，0=EOI 模 式 

0 1=8086/88 模 式 ，0=MCS 80/85 模 式 


对 于 表 4-11 描 述 的 CW3 寄 存 器 位 说 明 ， 此 处 需要 补充 说 明 以 下 功能 模式 。 
口 AEOI 模 式 : 此 模式 可 使 中 断 控 制 器 收 到 CPU 发 送 来 的 第 2 个 INTA 中 断 响应 脉冲 后 ， 自 动 复位 
ISR 寄 存 器 的 对 应 位 。 
口 EOI 模 式 : 在 EOI 模 式 下 ， 处 理 器 执行 完 中 断 处 理 程序 后 ， 必 须 手 动向 中 断 控 制 器 发送 中 断 结 
束 EOI 指令， 来 复位 ISR 寄 存 器 的 对 应 位 。 
口 FNM (Fully Nested Mode， 全 内 套 模 式 ): 在 此 模式 下 ,中断 请 求 的 优先 级 按 引 脚 名 从 高 到 低 
依次 为 IR0~IR7。 如 果 从 8259A 芯 片 的 中 断 请 求 正 在 被 处 理 ， 那 么 该 从 芯片 将 被 主 芯 片 屏 蔽 直 
至 处 理 结束 ， 即 使 从 芯片 产生 更 高 优先 级 的 中 断 请 求 也 不 会 得 到 执行 。 
口 SFNM (Special Fully Nested Mode， 特 殊 全 藤 套 模式 ) : 该 模式 与 FNM 基 本 相同 ,不 同 点 是 
当 从 芯片 的 中 断 请 求 正 在 被 处 理 时 ， 主 芯片 不 会 屏蔽 该 从 芯片 , 这 使 得 主 世 片 可 以 接收 来 自从 
芯片 的 更 高 优先 级 中 断 请 求 。 在 中 断 处 理 程序 返回 时 ， 需 要 先 向 从 芯片 发 送 EoI 命 令 ， 并 检测 
从 芯片 的 ISR 寄 存 器 值 ， 如 果 ISR 寄 存 器 仍 有 其 他 中 断 请 求 ， 则 无 需 向 主 芯 片 发 送 Eor 命 令 。 
通常 情况 ， 只 要 将 主 /从 8259A 芯 片 的 CW4 寄 存 器 设置 为 01h 即 可 。 根 据 个 人 经 验 ， 内 核 通 常 不 会 
将 中 断 控 制 器 配置 得 过 于 复杂 ， 而 尽量 采用 简单 的 逻辑 ， 这 样 可 使 中 断 处 理 程序 实现 得 更 加 灵活 。 
2. 操作 控制 字 OCW 
OCW 寄 存 器 组 共 包 含 OCW1、OCW2、OCW3 三 个 寄存 器 ， 它 们 用 于 控制 和 调整 工作 期 间 的 中 断 
控制 器 ， 这 三 个 寄存 器 没有 操作 顺序 之 分 。 主 8259A 芯 片 的 OCW1 寄 存 器 映射 到 1/O 端 口 21h 地 址 处 ， 
OCW2、OCW3 寄 存 器 映射 到 LO 端口 20h 地 址 处 ; 从 8259A 的 OCW1 寄 存 器 映射 到 IO 端口 Alh 地 址 处 ， 
OCW2、OCW3 寄 存 器 映射 到 IO 端口 A0h 地 址 处 。 
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e@ OCW1 寄 存 器 
OCW1 是 中 断 屏 蔽 寄存 器 ， 该 寄存 器 共有 8 位 ， 每 位 的 含义 如 表 4-12 所 示 。 


表 4-12 OCW1 寄 存 器 位 功能 说 明 


位 描 述 

7 1= 屏 蔽 IRQ7 中 断 请 求 ，0= 允 许 IRQ7 中 断 请 求 

0 1= 屏 项 IRQ6 中 断 请 求 ，0= 允 许 IRQ6 中 断 请 求 

5 1= 屏 项 IRQ5 中 断 请 求 ，0= 人 允许 IRQ5 中 断 请 求 

4 1= 屏 蔽 IRQ4 中 断 请 求 ，0= 允 许 IRQ4 中 断 请 求 | 
3 1= 屏 项 IRQ3 中 断 请 求 ，0= 允 许 IRQ3 中 断 请 求 

2 1= 屏 项 IRQ2 中 断 请 求 ，0= 允 许 IRQ2 中 断 请 求 

1 1= 屏 项 IRQ1 中 断 请 求 ，0= 允 许 IRQ1 中 断 请 求 

0 1= 屏 项 IRQ0 中 断 请 求 ，0= 允 许 IRQO0 中 断 请 求 

这 个 寄存 器 非常 好 理解 。 但 还 请 注意 ， 尽 量 屏蔽 掉 不 使 用 的 中 断 请 求 引 脚 ， 以 防止 接收 不 必要 的 


中 断 请 求 ， 进 而 导致 中 断 请 求 过 于 拥堵 。 
@ OCW2 寄 存 器 
OCW2 依 然 是 个 8 位 的 寄存 器 ， 表 4-13 是 其 每 位 的 含义 。 


表 4-13 ”OCW2 寡 存 器 位 功能 说 明 

描 述 
优先 级 循环 状态 
寺 殊 设 定 标志 
非 自动 结束 标志 
恒 为 0 
恒 为 0 
0~2 优先 级 设 定 


序 


局 上 wm 人 司 


对 于 OCW2 寄 存 器 的 D5~D7 位 , 它们 可 以 组 合成 多 种 模式 ， 表 4-14 记 录 了 这 些 组 合 值 代 表 的 含义 。 


表 4-14 OCW2 寡 存 器 的 D5~D7 位 组 合 值 含义 

D7 D6 D5 含义 
0 循环 AEOI 模 式 ( 清除 ) 

1 非特 殊 EoI 命 令 (全 山 套 方式 ) 
0 无 操作 
1 特殊 EoI 命 令 ( 非 全 嵌 套 方式 ) 
0 循环 AEOI 模 式 ( 设置 ) 
1 

0 

1 


循环 非特 殊 EoI 命 令 
设置 优先 级 命令 


循环 特殊 EOI 命令 


一 一 一 一 OO OO oo 


一 一 避 OO 一 一 Oo 
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循环 模式 (D7=1 ): 8259A 世 片 使 月 


一 个 8 位 的 循环 队列 保存 各 引 脚 中 断 请 求 ， 当 一 个 中 断 请 求 结 
束 后 ， 这 个 引 脚 的 优先 级 将 自动 降 为 最 低 ， 然 后 排 入 优先 级 队列 的 未 尾 处 ， 以 此 类 推 。 


特殊 循环 (D7=1，D6=1 ): 特殊 循环 模式 在 循环 模式 的 基础 上 ,将 D0~D2 位 指定 的 优先 级 设置 为 


最 低 优先 级 ， 随 后 是 


@ OCW3 寄 存 器 
OCW3 同 样 是 一 个 8 位 的 寄存 器 ， 表 4-15 是 对 OCW3 寄 存 器 各 位 功能 的 描述 。 


表 4-15 OCW3 寄 存 器 位 功能 说 明 


按照 循环 模式 循环 降低 中 断 请 求 的 优先 级 。 


位 描 述 
7 恒 为 0 

6、 特殊 屏蔽 模式 : 11= 开 启 特殊 屏蔽 ，10= 关 闭 特殊 屏蔽 
4 恒 为 0 
3 恒 为 1 
2 1= 轮 询 ，0= 无 查询 


10= 读 IRR 寄 存 器 ，11= 读 ISR 寄 存 器 


特殊 屏蔽 模式 : 在 某 些 场合 ， 我 们 希望 中 断 处 理 程序 能 够 被 更 低 优 先 级 的 中 断 请 求 打 断 ， 采 用 特 


殊 屏 蔽 模式 ， 可 在 置 位 IMR 寄 存 器 (OCW1 寄 存 器 ) 的 同时 复位 对 应 的 ISR 寄 存 器 位 ， 从 而 可 以 处 理 其 
他 优先 级 的 中 断 请 求 。 


以 上 内 容 就 是 关于 8259APIC 的 寄存 器 功 全 


程序 。 


4.6.2 ”触发 中 断 


外 部 硬件 中 断 与 处 至 


6 介绍 。 接 下 来 将 基于 8259A 中 断 控 制 右 实现 中 断 处 理 


器 异常 一 样 ， 它 们 都 使 用 IDT 来 索引 处 理 程序 ， 这 点 


中 讲解 过 了 ， 其 不 同 之 处 在 于 异常 


已 在 4.4 季 ( 系统 异常 ) 


是 处 理 器 产生 的 任务 暂停 ， 而 中 断 是 外 部 设备 产生 的 任务 暂停 ， 


此 中 断 和 异常 的 处 理工 作 都 需要 保存 和 还 原 任 务 现场 。 那么 ， 首 9 
件 中 断 的 任务 现场 ， 代 码 清单 4-83 是 任务 现场 的 保存 模块 。 


代码 清单 4-83 ”第 4 章 \ 程 序 \ 程 序 4-9\kernel\interrupt.c 


#define SAVE_ALL 


as 


"pus 
"pus 


"MOVG 


"pus 


"MOVG 


"pus 


"XOFdI 


ha 
ha 


na 


ha 


nq 


na 
nq 


Srax; 
Sraxs 


Ses, 


Srax; 


$ds, 


Srax; 
Srax, 
$rbp; 
Srdi; 
SIELy 


VAN 
NTNEN 
NEENEY 


Sa 


NiNEY 


WINE 


Sa 


Mni\E? 


\n\t" 


Srax; 


NTTNE 


\n\t" 
\n\t" 
NHN 


es De pr Re a RY a eee, 


E 就 要 实现 一 


套 代 码 来 保存 被 外 部 硬 
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"pushec Srdx; NN \ 
Be SEG NN Ey 上 
"Pusha %Srbx; NE 本 
"pushqdq Sr8; NON ~、 
"pushq %r9; NNNE” \ 
"Dushda %Sr10; \n\t' N\ 
"pushqa %r1l; NN \ 
"Pushda %$r12; ND \ 
"Dushda gr13 NN GY \ 
"Pusha %Sr14; NipNE 六 
"BUushq Sr15; NNGY \ 
"movc $0x10, %Srdx; NN" 
"movgq %rdx, %ds; NING N 
"movd %rdx, %es; \n\t" 


这 段 汇编 程序 负责 保存 当前 通用 寄存 器 状态 ， 它 与 entry.S 文 件 中 的 error_code 模 块 极 其 相似 ， 
只 不 过 中 断 处 理 程序 的 调用 和 人 口 均 指向 同一 中 断 处 理 函 数 ao_IRQ@， 而 且 中 断 触 发 时 不 会 压 人 错误 
码 ， 所 以 此 处 无 法 复 用 error_coqe 模 块 。sSaAvVE_ALL 汇 编 宏 模块 将 被 应 用 在 宏 函 数 Bui1d_IRo 中 ,， 参 
见 代码 清单 4-84。 


代码 清单 4-84 ”第 4 章 \ 程 序 \ 程 序 4-9\kernel\interrupt.c 


#define IRO_NAME2 (nr) nr##_ interrupt (void) 
#define IRO_ NAME (nr) IRQO_ NAME2 (IRQ##nr) 


#define Build_IRQO (nr) \ 
void IRQO_NAME (nr); 民 
_asm (人 SYMBOL_NAME_STR (IRO) #nr"_interrupt: NE \ 
"Pushd SOx00 NENEY \ 
SAVE_ALL \ 
"movd Srsp, Srdi Ny eB \ 
"leag ret_from intr(%Srip), Srax NNEC \ 
"Pushd Srax NAN \ 
"movd $"#nr", Srsi \n\t" NN 
"jmp do_IRO NN \ 


ei 

这 段 宏 代 码 用 于 定义 中 断 处 理 程序 的 入 口 部 分 ， 其 内 容 不 太 容 易 理解 ， 此 处 将 对 它 做 详细 讲解 。 
代码 中 的 符号 粘 接 操 作 符 ## 用 于 连接 两 个 安 值 , 在 宏 展开 过 程 中 , 它 会 将 操作 符 两 边 的 内 容 连 接 起 来 ， 
组 成 一 个 完整 的 内 容 。 例 如 ， 将 Builg_IRQ(0x20) 宏 的 void IRQ_NAME (nr) ;部 分 逐渐 展开 : 
IRQO_NAME (0x20) => IRO_NAME2 (IRQ##0x20) => IRO_ NAME2 (IROOx20) => IRQOx20_interrupt 
(voidq) ， 最 终生 成 的 函数 名 是 voiqd IRQ0x20_interrupt (void)。 

在 宏 展开 过 程 中 还 使 用 到 预 处 理 操作 符 #， 这 个 操作 符 可 将 其 后 的 内 容 强 制 转换 为 字符 串 ， 宏 函 
数 #define SYMBOL_NAME_STR(X) #X 便 是 基于 此 技巧 实现 的 。 因 此 ， 程 序 中 的 SYMBOL_NAME_ 
STR (IRQ)#nr"_interrupt: \nxt" 一 行经 过 安 展开 后 就 变 为 TIROOx20_interrupt :。 同 理 ， 程序 
"mOVG S$"#nr", %Srsi \n\t" 展 开 后 将 变 为 "movqg SOx20, Srsi \n\t"o 

代码 清单 4-84 中 的 程序 leaq ret_from_intr(%rip)，%rax 用 于 取得 中 断 处 理 程序 的 返回 地 
址 ret_from_intr， 并 将 其 保存 到 中 断 处 理 程序 栈 内 。 由 于 sAVE_ALL 模 块 使 用 JMP 指 令 进 入 中 断 处 
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核 层 


理 程序 ( 函数 do_IRE )， 所 以 中 断 处 理 程序 必须 借助 栈 里 的 返回 地 址 才能 构成 一 个 完整 的 函数 调用 过 


程 (JMP 指 令 在 跳 转 过 程 中 不 会 压 入 返回 地 址 ， 而 RET 指 令 在 函数 返回 时 却 需要 返回 地 址 )。 采 用 JMP 


指令 加 


返回 地 址 的 方法 来 代替 CALL 指 令 ， 可 使 机 数 调 用 过 程 更 加 灵活 。 
这 上段 代码 的 剩余 内 容 很 好 理解 ,请 读者 自行 阅读 学 习 。 下 面 将 通过 宏 函 数 Builg_IR0O 定 义 中 断 处 
理 函 数 的 入 口 代码 片段 ， 实 现 过 程 如 代码 清单 4-85 所 示 。 


代码 清单 4-85 ”第 4 章 \ 程 序 \ 程 序 4-9\kernel\interrupt.c 


Build_IRQO(0x20) 


Builgd_IRQO(0x37) 


void 


{ 


(* interrupt{[24]) (void)= 


IRQOOx20_interrupt, 


IRQOOx37_interrupt, 


人 


这 


数组 ， 数 组 的 每 个 元 素 都 指向 由 宏 函 数 Buil9_IRQ 定 义 的 一 个 中 断 处 理 函 数 入 


接 


下 来 将 初始 化 主 /从 8259A 中 断 控 制 器 和 


代码 清单 4-86 第 4 章 \ 程 序 \ 程 序 4-9\kernel\interrupt.c 


voidq init_interrupt() 


{ 


int i; 
Oh. S32 


{ 


< 56;i++) 


set_intr gate(i ,， 2 ,， interrupt[i - 32]); 


} 


Color._printk (RED,BLACK, "8259A init \n"); 


//8259A-mast 
io_out8 (0x20 
io_out8( 
io_out8 (0x21 
io_out8( 


er ICW1-4 
OXLT1)}y 
;OQX20.).3 
:OROA Ys 
0x01); 


//8259A-slave ICW1-4 


io_out8 (0xa0 
io_out8 
io_out8 (0xal 
io_out8( 


//8259A-M/S 


OL 
2 0K2.8)3 
,0x02); 
, 0x01); 


OCWL1 


里 使 用 宏 函 数 Bui19_IRo 声 明 24 个 中 断 处 理 函 数 的 入 口 代码 片段 , 同时 还 定义 了 一 个 函数 指针 


口 。 


! 靳 描述 符 表 IDT 内 的 各 门 描述 符 , 请 看 代码 清单 4-86。 
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io_out8 (0x21,0x00); 
io_out8 (0xal, 0x00); 


sti(); 

} 

这 部 分 程序 首先 使 用 函数 set_intr_gate 将 中 断 向 量 、 中 断 处 理 函 数 配置 到 对 应 的 门 描述 符 
中 。 外 部 硬件 设备 的 中 断 向 量 号 从 32 开 始 ， 代 码 清单 4-86 中 的 循环 体 负责 将 中 断 处 理 函 数 入 口 地 址 配 
置 到 外 部 硬件 设备 对 应 的 门 描述 符 中 。 

接 下 来 ， 将 对 主 / 从 8259A 中 断 控 制 器 进行 初始 化 赋值 ， 表 4-16 记 录 着 初始 化 过 程 向 ICW 寄 存 器 组 
中 各 寄存 器 发 送 的 数据 。 此 处 的 函数 io_out8 与 io_in8 仅 仅 是 IN 和 ouz 汇 编 指令 的 简单 封装 ， 它 们 位 
于 库 文件 1ib .ph 中 ， 请 读者 自行 阅读 。 


表 4-16 ” 主 / 从 8259A 的 ICW 寄 存 器 组 初始 化 数据 


主 /从 8259A ICWx IO 端口 数值 
主 8259A ICW1 20h 11h 
ICW2 21h 20h 

ICW3 21h 04h 

ICW4 21h 01h 

从 8259A ICW1 AOh 11h 
ICW2 Alh 28h 

ICW3 Alh 02h 

ICW4 Alh 01h 


最 后 ， 复 位 主 / 从 8259A 中 断 控制 器 的 中 断 屏蔽 寄存 器 IMR 的 全 部 中 断 屏蔽 位 ， 并 使 能 中 断 〈 置 位 
EFLAGS 标 志 寄 存 器 的 中 断 标 志 位 下 )。 
除 上 述 代 码 外 ， 还 必须 实现 中 断 处 理 函 数 ao_IRo， 它 是 中 断 处 理 程序 的 主 函 数 ， 其 作用 是 分 发 
中 断 请 求 到 各 个 中 断 处 理 函 数 。 由 于 这 部 分 功能 目前 并 未 实现 ， 从 而 只 能 在 屏幕 上 打印 中 断 向 量 
以 表明 处 理 器 正在 执行 中 断 处 理 函 数 ， 具 体 程序 实现 如 代码 清单 4-87 所 示 。 


代码 清单 4-87 第 4 章 \ 程 序 \ 程 序 4-9\kernel\interrupt.c 


void do_IRO(unsigned long regs,unsigned long nr) //regs:rsp,nr 


{ 


Color_printk (RED,BLACK, "do_IRQO:%#08x\t",nr); 
io_out8 (0x20,0x20); 
} 


! 断 处 理 函 数 do_IRO 的 代码 实现 比较 简单 ， 其 主要 功能 是 显示 当前 中 断 请 求 的 中 断 向 量 号 ， 并 
向 主 8259A 中 断 控 制 器 发 送 EoI 命 令 复 位 ISR 寄 存 器 ， 图 4-20 是 本 程序 的 运行 结果 。 
到 4-20 并 非 程序 最 终 的 执行 结果 ， 而 是 程序 运行 的 瞬间 截图 。 为 了 看 清楚 不 断 产生 0x20 号 中 断 的 
原因 ， 特 地 查看 图 4-18 ， 结 果 发 现 0x20 号 中 断 是 时 钟 中 断 。 可 以 猜测 ， 在 没有 配置 时 钟 控 制 器 前 开启 
时 钟 中 断 ， 从 而 导致 不 断 有 时 钟 中 断 请 求 产生 。 

暂时 先 不 理会 这 些 细节 ， 目 前 中 断 信 号 可 以 连续 产生 ， 并 且 尚 未 触发 异常 ， 这 说 明 中 断 处 理 程序 
已 经 实现 。 接 下 来 让 我 们 在 中 断 处 理 函 数 的 基础 上 ， 匀 必 信 起 设 全 人 这 六 的 让 攻 广 于 中 六 政局 。 


Bochs x86-64 emulator, http://bochs.sourceforge.net/ 
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图 4-20 中断 触 发 效果 图 


假设 我 们 屏蔽 代码 清单 4-86 中 的 所 有 中 断 请 求 ， 只 开 


发 按键 中 断 请 求 。 在 多 次 散 击 键盘 按键 后 ,屏幕 上 却 只 


这 是 为 什么 呢 ? 


控制 名 芯片 有 所 了 解 才能 实现 。 由 


4.7.1 简 述 键盘 功能 


于 键盘 控 仙 


剖 句 芯片 的 功 角 
相关 知识 作 简要 介绍 ， 更 多 细节 内 容 会 在 第 11 章 中 予以 介绍 


目前 ， 市 面 上 的 键盘 控制 器 芯片 大 多 采用 Intel 8042 以 及 兼容 芯片 ， 键 盘 控 人 


(或 一 些 USB 接 口 ) 与 外 部 键盘 设备 相连 。 


会 时 刻 扫描 键盘 设备 的 每 个 按键 ， 
所 以 8048 世 片 也 被 称 为 键盘 编码 世 


系统 的 其 他 功能 ， 如 鼠标 、A20 地 址 线 等 。 


XT 扫描 码 集 )， 并 存放 到 输出 缓冲 


键盘 设备 通常 会 包含 


片 。 图 4-21 描 绘 了 键盘 控 


当 8048 键 盘 编 码 器 扫描 到 按键 被 按 下 时 ， 它 会 将 按键 对 应 的 编码 值 通 
ein de nt 会 将 其 


区 中 待 


外 


不 再 接收 新 的 数据 ， 直 至 输出 缓冲 区 


区 被 清空 


后 ，8042 心 片 才 会 继续 接收 


启 键盘 中 断 请 求 ， 则 可 验证 键盘 是 否 能 够 触 
1 显示 过 一 次 ao_IRo:0x000021 中 断 日 志 信 息 ， 


其 实 键盘 设备 也 是 拥有 控制 芯片 的 ， 如 果 乔 望 键盘 可 以 持续 接收 到 按键 中 断 请 求 ， 则 必须 对 键盘 
非常 强大 ， 本 节 将 暂 对 键盘 控制 器 芯片 的 


制 器 芯片 通过 PS/2 接 口 


一 个 Intel 8048 或 兼容 芯片 ， 这 个 芯片 
并 将 扫描 到 的 按键 进行 编码 , 每 个 按键 的 编码 是 唯一 的 , 不 会 重复 ， 
制 器 的 链 路 ， 图 中 的 8042 芯 片 还 负责 控制 


过 PS/2 接 口 发 送 到 8042 键 盘 
二 解析 并 转换 成 统一 
处 理 器 读 取 。 如 果 此 时 键盘 又 有 新 的 键 被 按 下 ，8042 忌 片 将 
按键 编码 数据 。 这 就 解释 了 为 


的 键盘 扫描 码 〈 第 1 套 


何 多 次 敲 击 键盘 按键 ,屏幕 上 却 仅 显示 一 次 9o_IRO:0x000021 中 断 日 志 信 息 的 现象 。 
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其 他 功能 
IRQI 
8259A | 8042 
数据 总 线 
PS/2 
键盘 8048 


图 4-21 ”键盘 控制 器 链 路 示意 图 


键盘 扫描 码 一 共有 3 套 : 第 1 套 为 原始 的 XT 扫描 码 集 ; 第 2 套 为 AT 扫 描 码 集 ; 第 3 套 为 PS/2 扫 描 码 
集 (很 少 使 用 )。 现在， 键盘 丝 默 认 使 用 第 2 套 AT 键 盘 扫 描 码 ,但 是 出 于 兼容 性 考虑 ， 第 2 套 扫描 码 最 
终 都 转换 成 第 1 套 XT 扫 描 码 集 供 处 理 器 使 用 ( 也 可 以 设置 成 不 转换 成 第 1 套 XT 扫 描 码 集 ， 但 这 样 需要 
另 作 特殊 配置 )。 

第 1 套 扫描 码 的 特点 是 ,每 个 按键 扫描 码 由 1 B 数 据 组 成 ,这 1 B 数 据 的 低 7 位 (位 6 到 位 0 ) 代表 按 
键 的 扫描 码 ， 最 高 位 ( 位 7 ) 代表 按键 的 状态 (0: 按 下 ，1: 松 开 )。 当 某 个 键 被 按 下 时 ， 键 盘 控 制 器 
输出 的 扫描 码 叫 作 Make Code 码 ， 而 松 开 按键 时 的 扫描 码 则 叫 作 Break Code 码 。 例 如 ， 按 键 B 的 Make 
Code 码 是 0x30， 则 它 的 Break Code 码 便 是 0xb0。 

此 外 ， 还 有 一 些 扩展 按键 使 用 2 B 键 盘 扫 描 码 。 当 扩展 按键 被 按 下 后 ， 键 盘 编 码 器 将 相继 产生 两 
个 中 断 请 求 ， 第 一 个 中 断 请 求 将 向 处 理 器 发 送 1 B 的 扩展 码 前 级 0xe0, 第 二 个 中 断 请 求 将 向 处 理 器 发 送 
1B 的 扩展 Make Code 码 。 当 松 开 该 按键 后 ， 键 盘 编码 器 依然 会 相继 产生 两 个 中 断 请 求 ， 第 一 个 中 断 请 
求 将 向 处 理 器 发 送 1 B 的 扩展 码 前 组 0xe0， 第 二 个 中 断 请 求 将 向 处 理 器 发 送 1 B 的 扩展 Break Code 码 。 

除 此 之 外 ,还 有 两 个 特殊 的 按键 ，PrtScn 和 Pause/Break。 当 PrtScn 按 键 被 按 下 时 ， 处 理 器 共 会 收 到 
两 组 含有 扩展 码 前 级 的 Make Code 码 , 它们 的 字 节 顺序 依次 是 0xe0、0x2a、0xe0、0x37; 当 松 开 PrtScn 
按键 时 将 会 依次 产生 0xe0、0xb7、0xe0、0xaa 四 个 键盘 扫描 码 。 而 在 按 下 Pause/Break 键 时 ， 键 盘 编 
码 器 产生 的 扩展 码 字 节 顺 序 是 0xel1、0x194、0x45、0xel、0x9d、0xc5， 与 其 他 按键 不 同 的 是 ， 松 
开 此 按键 并 不 会 产生 键盘 扫描 码 。 

键盘 控制 器 的 寄存 器 地 址 同样 采用 IO 地 址 映射 方式 , 使 用 IN 和 ou 汇编 指令 便 可 对 寄存 器 进行 
访问 。 键 盘 控制 器 的 IO 端口 地 址 是 60h 和 64h， 其 中 60h 地 址 处 的 寄存 器 是 读 写 缓 冲 区 ，64h 地 址 处 
的 寄存 器 用 于 读 取 寄存 器 状态 或 者 向 芒 片 发 送 控 制 命令 。 目 前 ,我 们 暂时 不 需要 对 8042 键 盘 控 制 器 
芯片 做 过 多 配置 ， 只 要 从 VO 端口 地 址 60h 处 将 键盘 扫描 码 读 取出 来 即 可 。 下 面 就 来 编写 键盘 扫描 码 
的 读 取 程序 。 
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4.7.2 ”实现 键盘 中 断 捕获 函数 


键盘 扫描 码 的 读 取 程序 是 在 代码 清单 4-86 的 基础 上 实现 的 。 首 先 必 须 屏蔽 键盘 中 断 请 求 信号 以 外 
的 所 有 中 断 请 求 信号 ， 随 后 便 可 在 中 断 处 理 函 数 do_IRO 中 添加 键盘 扫描 码 的 接收 代码 ， 并 将 键盘 扫 
描 码 值 打印 在 屏幕 上 。 代 码 清单 4-88 是 整个 实现 过 程 必须 调整 和 追加 的 程序 。 
代码 清单 4-88 ”第 4 章 \ 程 序 \ 程 序 4-10\kernel\interrupt.c 


voidq init_interrupt() 


//8259A-M/S OCWL1 
io_out8 (0x21, 0xfd); 
io_out8 (0xal, Oxff); 


void do_IRO(unsigned long regs,unsigned long nr) //regs:rsp,nr 
{ 

unsigned char x; 

Color_printk (RED,BLACK, "do_IRO:%#08x\t",nr); 

x = io_in8(0x60); 

Color_printk (RED,BLACK, "key code:%#08x\n",x); 

io_out8 (0x20, 0x20); 


} 


这 段 程序 追加 的 功能 是 ， 借 助 汇编 指令 IN 从 IO 端口 地 址 60h 处 读 取出 键盘 扫描 码 ， 再 调用 


color_printk 了 部 数 将 键盘 扫描 码 打 印 在 屏幕 上 。 岁 4-22 和 图 4-23 分 别 是 按键 B 与 Pause/Break 键 的 键盘 
扫描 码 [ey 


Bochs x86-64 emulator, http://bochs.sourceforge.net/ 


IPs; 55.4321 


图 4-22 ”按键 B 的 Make Code 码 和 Break Code 码 
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Bochs x86-64 emulator, http:/bochs.sourceforge.net/ 


图 4-23 ”Pause/Break 键 的 键盘 扫描 码 


虽然 我 们 还 未 对 键盘 控制 器 坊 片 进行 过 初始 化 配置 ， 但 中 断 人 处 理 函 数 ao_IRO 已 经 能 够 处 理 键 盘 
发 送 来 的 中 断 请 求 和 数据 ， 亦 可 勉强 算是 个 键盘 驱动 程序 。 

本 章 内 容 已 经 接近 尾声 ， 还 剩 进程 管理 模块 内 容 。 那 么 下 面 就 让 我 们 一 起 进入 进程 的 世界 ， 看 看 
操作 系统 的 第 一 个 进程 是 如 何 创建 出 来 的 。 


4.8 进程 管理 


相信 仔细 阅读 过 目录 的 读者 应 该 会 发 现 ， 第 12 章 章 名 与 本 节 名 同 为 进程 管理 ， 本 节 侧 重 于 讲解 进 
程控 制 结构 体 和 操作 系统 第 一 个 进程 的 创建 过 程 ， 而 第 12 章 则 侧重 于 讲解 多 核 处 理 器 的 初始 化 、 进 程 
调度 管理 以 及 内 核 层 的 数据 同步 方法 等 内 容 

进程 作为 用 户 操作 的 实体 ， 它 贯穿 操作 系统 的 整个 生命 周期 ， 而 程序 是 由 若干 段 二 进 制 码 组 成 
的 。 进 程 可 以 说 是 程序 的 运行 态 抽象 ， 即 运行 于 处 理 器 中 的 二 进 制 码 叫 作 进程 ， 保 存在 存储 介质 中 的 
二 进 制 码 叫 作 程序 。 进 程 会 在 执行 过 程 中 引入 运行 环境 维护 信息 ， 因 此 进程 管理 主要 涉及 两 部 分 内 

进程 控制 结构 体 和 进程 间 的 调度 策略 。 

进程 控制 结构 体 用 于 记录 和 收集 程序 运行 时 的 资源 消耗 信息 ， 并 维护 程序 运行 的 现场 环境 ; 进程 
间 的 调度 策略 主要 负责 决策 一 个 程序 将 在 何 时 能 够 获得 处 理 器 的 执行 权 。 


4.8.1 简 述 进程 管理 模块 


进程 作为 拥有 执行 资源 的 最 小 单位 ， a 
的 页 表 、 进 程 执 行 现场 的 寄存 器 值 、 进 程 各 个 段 地 址 空间 分 布 信息 以 及 进程 执行 时 的 维护 信息 等 ， 
们 在 程序 的 运行 期 间 会 被 经 常 或 实时 更 新 。 这 些 资 源 有 组 织 地 被 结构 化 到 PCB ( Process Control Block， 


[ 


O 
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进程 控制 结构 体 ) 内 ，PCB 作 为 进程 调度 的 决策 信息 供 进 程 调度 算法 使 用 。 系 统 内 核 的 所 有 组 成 部 分 
皆 是 为 进程 高 效 、 稳 定 的 运行 提供 服务 。 

进程 调度 策略 (或 称 进 程 调 度 算法 ) 负责 将 满足 运行 条 件 或 迫切 需要 执行 的 进程 调配 到 空闲 处 理 
器 中 执行 。 进 程 调度 策略 是 操作 系统 中 非常 重要 的 一 部 分 ， 它 直接 影响 着 程序 的 执行 效率 ， 即 使 操作 
系统 拥有 再 强大 的 处 理 器 ， 也 很 可 能 被 精 糕 的 调度 策略 拖 后 腿 ， 甚 至 拖 震 。 这 也 是 Linux 内 核 不 断 创 
新 调度 算法 ( 像 流行 一 时 的 O1 算 法 、RSDL 算 法 、CFS 算 法 ) 的 原因 之 一 。 

在 接 下 来 的 两 节 内 容 中 ， 首 先 会 讲述 PCB 的 定义 ， 并 为 操作 系统 创建 出 第 一 个 进程 的 PCB 。 由 于 
该 结构 体 是 我 们 手动 构造 出 来 的 ， 而 非 借助 内 核 函 数 创建 ， 因 而 它 的 构造 过 程 也 就 有 必要 详细 讲解 。 
随后 再 为 操作 系统 创建 init 进 程 (操作 系统 的 第 二 个 进程 )， 并 通过 init 进 程 跳 转 至 应 用 层 执 行 应 
程序 。 由 于 init 进 程 的 创建 过 程 非常 复杂 并 涉及 应 用 层 知 识 ， 故 此 本 节 仅 完成 init 进 程 的 创建 并 编 
写 代码 手动 切换 ( 目前 系统 尚 无 调度 器 ， 无 法 完成 自动 切换 工作 ) 至 init 进 程 ， 待 到 第 5 章 我 们 再 讲 
解 init 进 程 如 何 切换 至 应 用 层 。 


一 


4.8.2 PCB 


PCB 用 于 记录 进程 的 资源 使 用 情况 ( 包括 软件 资源 和 硬件 资源 ) 和 和 运行 态 信息 等 。 代 码 清单 4-89 
中 的 struct task_struct 结 构 体 是 为 本 系统 设计 的 第 一 版 PCB ， 目 前 暂时 拟定 了 如 下 内 容 ， 也 许 某 
些 成 员 变 量 是 空闲 的 或 多 余 的 ， 它 们 将 在 随后 的 开发 过 程 中 另 作 删 改 。 


代码 清单 4-89 ”第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.h 


struct task_struct 

{ 
struct List list; 
volatile long state; 
unsigned long flags; 


strut mm StEuct. ps 
struct thread_struct *thread; 


unsigned long aqqr_ limit; /*0x0000,0000,0000,0000 - 0x0000,7fff,f£fff,ffff user*/ 
/*0xftLtff.,8000;0000;0000 = "0xrffff,; fftff, rtffft,ttfrt. Kernel*/ 


long pid; 
long counter; 
long signal; 


long priority; 
J 
表 4-17 记 录 是 struct task_struct 结 构 体 各 个 成 员 变量 的 功能 说 明 ， 其 中 的 成 员 变 量 mm 与 
thread 负 责 在 进程 调度 过 程 中 保存 或 还 原 CR3 控 制 寄 存 器 的 页 目录 基地 址 和 通用 寄存 器 值 , 其 他 成 员 
变量 基本 属于 进程 调度 策略 的 管理 范畴 。 
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表 4-17 struct task_struct 结 构 体 成 员 功 能 说 明 


结构 体 成 员 名 说 明 
SC Disk st 双向 链表 ， 用 于 连接 各 个 进程 控制 结构 体 
Vorabile Tong State 进程 状态 : 运行 态 、 停 止 态 、 可 中 断 态 等 
unsigned long flags 进程 标志 : 进程 、 线 程 、 内 核 线 程 
struet Mstiuor nu 内 存 空间 分 布 结构 体 ， 记 录 内 存 页 表 和 程序 段 信息 
struct thread struct *thread 进程 切换 时 保留 的 状态 信息 
unsigned long addr_limit 进程 地 址 空间 范围 


0x00000000,00000000 - 0x00007FFF,FFFFFFFF 应 用 层 
0xFFFF8000,00000000 - 0xFFFFFFFF,FFFFFFFF 内 核 层 


| 


long pid 进程 ID 号 

long counter 进程 可 用 时 间 片 
long signal 进程 持 有 的 信号 
long priority 进程 优先 级 


注意 ， 此 处 的 state 成 员 变量 使 用 volatile 关 键 字 加 以 修饰 ， 以 说 明 该 变量 可 能 会 在 意 想不到 
的 地 方 被 修改 ， 因 此 编译 器 不 要 对 此 成 员 变量 进行 优化 。 换 言 之 ， 处 理 器 每 次 使 用 这 个 变量 前 ， 必 须 
重新 读 取 该 变量 的 值 ， 而 不 能 使 用 保存 在 寄存 器 中 的 备份 值 。 

内 存 空间 分 布 结构 体 struct mm_struct 描 述 了 进程 的 页 表 结 构 和 各 程序 段 信 息 ， 其 中 不 乏 有 页 
目录 基地 址 、 代 码 段 、 数 据 段 、 只 读数 据 段 、 应 用 层 栈 项 地 址 等 信息 ， 代 码 清单 4-90 是 该 结构 体 的 完 
整定 义 。 


代码 清单 4-90 ”第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.h 


struct. In Stracet 


{ 


pml4t tt *pgd; //page table point 


unsigned long start_code,end code; 
unsigned long start_data,end data; 
unsigned long start_rodata,end rodata; 
unsigned long start_brk,end brk; 
unsigned long start_stack; 


表 4-18 是 struct mm_struct 结 构 体 各 个 成 员 变量 的 功能 说 明 ， 其 中 的 成 员 变 量 pgd 保 存在 CR3 
控制 寄存 器 值 ( 页 目录 基地 址 与 页 表 属 性 的 组 合 值 )， 成 员 变量 start_stack 记 录 着 应 用 程序 在 应 用 
层 的 栈 顶 地 址 ， 其 他 成 员 变 量 描 述 了 应 用 程序 的 各 段 地 址 空间 。 


表 4-18 struct mm_struct 结 构 体 成 员 功 能 说 明 
结构 体 成 员 名 说 明 


pml4t_t *pgd 内 存 页 表 指 针 
unsigned long start_code,end code 代码 段 空 间 
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unsigned long 
unsigned long 
unsigned long 


unsigned long 


结构 体 成 员 名 说 明 
start_data,end data 数据 段 空 间 
start_rodata,engd_ rodata 只 读数 据 段 空间 
start_brk,engd_ brk 动态 内 存 分 配 区 ( 堆 


start_stack 应 用 层 栈 基地 址 


区 域 ) 


代码 清单 4-91 第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.h 


struct thread_struct 


{ 


unsigned long 


unsigned long 
unsigned long 


unsigned long 
unsigned long 


unsigned long 
unsigned long 
unsigned long 


} 


表 4-19 是 struct 七 


片 


着 应 用 程序 在 内 核 层 使 


rsp0; ZA ESS 


rip; 
rsp; 


fs; 
gs; 


GT 2 
trar- Tr 
error_code; 


存 着 进程 切换 回来 时 执行 代码 的 地 址 。 


每 当 进 程 发生 调 度 切换 时 ， 都 必须 将 执行 现场 的 寄存 器 值 保 存 起 来 ， 以 备 再 次 执行 时 使 用 。 本 系 


统 将 这 些 数 据 保存 在 struct threaq_struct 结 构 体 内 ， 代 码 清单 4-91 是 该 结构 体 的 详细 定义 。 


hreaq_struct 结 构 体 各 个 成 员 变量 的 功能 说 明 ， 其 中 的 成 员 变量 *sp0 记 录 


用 的 栈 基 地 址 ， 成 员 变量 *sp 保 存 着 进程 切换 时 的 栈 指 针 值 ，*ip 成 员 变量 


表 4-19 ”struct thread_struct 结 构 体 成 员 功 能 说 明 

结构 体 成 员 名 说 明 
unsigned long rsp0 内 核 层 栈 基地 址 
unsigned long rip 内 核 层 代码 指针 
unsigned long rsp 内 核 层 当前 栈 指针 
unsigned long fs FS 有 段 寄 存 器 
unsigned long gs GS 段 寄存 髓 
unsigned long cr2 CR2 控 制 寄存 器 
unsigned long trap_nr 产生 异常 的 异常 号 
unsigned long error_code 异常 的 错误 码 


关于 进程 的 内 核 层 栈 空 


task_struct 与 进程 的 内 核 层 栈 空 
而 余下 的 高 地 址 空间 则 作为 进程 的 内 核 层 栈 空 


s 间 实现 ， 此 处 借鉴 了 Linux 内 核 的 设计 思想 ， 即 把 进程 探 


制 结构 体 struct 


间 融 为 一 体 。 其 中 ， 低 地 址 处 存放 struct task_struct 结 构 体 ， 
间 使 用 ， 图 4-24 描 绘 了 进程 的 内 核 层 栈 空间 结构 。 
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内 核 层 栈 空间 〈 大 约 31 KB) 
一 段 连续 的 物理 内 存 (32KB) 


2 ja task_struck (大 约 1 KB) 


图 4-24 ”进程 的 内 核 层 栈 空间 结构 


代码 清单 4-92 借 助 一 个 联合 体 ， 把 进程 控制 结构 体 struct task_struct 与 进程 的 内 核 层 栈 空 
间 连 续 到 了 一 起 ， 其 中 的 宏 常 量 sSTACK_SIZE 被 定义 为 32768 B (32 KB )， 它 表示 进程 的 内 核 栈 空间 
和 struct task_struct 结 构 体 占用 的 存储 空间 总 量 为 32 KB， 在 Intel i386 处 理 器 架构 的 Linux 内 
核 中 进程 默认 使 用 8KB 的 内 核 层 栈 空间 。 由 于 64 位 处 理 器 的 寄存 器 位 宽 扩 大 一 倍 ， 相 应 的 栈 空间 也 
必须 扩大 ， 但 依然 不 清楚 应 该 扩大 至 多 少 才 算 合理 ， 这 个 数值 可 能 需要 慢 慢 摸索 和 总 结 ， 这 里 暂且 
将 其 设 定 为 32 KB ， 待 到 存储 空间 不 足 时 再 做 扩容 。 


代码 清单 4-92 ”第 4 章 \ 程 序 \ 程 序 4-11\kernelvtask.h 


union task_union 


{ 


struct task_struct task; 
unsigned long stack[STACK_SIZE / sizeof (unsigned long)]; 
}_ attribute _((aligned (8))); //8 Bytes align 


此 联合 体 共 占 用 32 KB 字 节 空间 ， 并 将 这 段 空间 按 8 B 进 行 对 齐 ， 但 实际 上 这 个 联合 体 的 起 始 地 址 
必须 按照 32 KB 字 节 对 齐 。 

代码 清单 4-93 将 联合 体 union task_union 实 例 化 成 全 局 变量 init_task_union， 并 将 其 作为 
操作 系统 的 第 一 个 进程 。 进 程控 制 结构 体 数组 init_task (指针 数组 ) 是 为 各 处 理 器 创建 的 初始 进程 
控制 结构 体 ， 目 前 只 有 数组 的 第 0 个 元 素 已 投入 使 用 ， 剩 余 成 员 将 在 多 核 处 理 需 初始 化 后 予以 创建 


代码 清单 4-93 ”第 4 章 \ 程 序 \ 程 序 4-11\kernelvtask.h 


O 


#define INIT_TASK (tsk) 二 

\ 
-State = TASK UNINTERRUPTLIBLE, 全 
.flags = PF_KTHREAD, \ 
.mm = &init_mm, \ 
.thread = &init_thread, \ 
.addr_limit = Oxffff800000000000, \ 
ee be 


COUNter = -1 \ 


立 - ~ 
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.signal = 0， N 
"Brionity ce \ 
中 
union task_union init task union _ attribute ((_ section  (".qata.init_ task"))) = 


{INIT_TASK(init_ task union.task)}; 


struct task_ struct *init_ task[NR_CPUS] = 
struct mm _ struct init mm = {0}; 


struct thread_ struct init_thread = 


{ 


{&init_ task union.task,0}; 


.rsp0 = (unsigned long) (init task union.stack + STACK_SIZE / sizeof (unsigned 
long)), 

.rsp = (unsigned long) (init_ task union.stack + STACK_SIZE / sizeof (unsigned 
long)), 

.fs = KERNEL_DS, 

i "KERNED. DS 

;E20 


ttEaD hh SO; 
.error_code = 0 
2 


这 段 程 序 比 较 好 理解 ， 但 是 要 特别 注意 全 局 变量 init_task_union， 此 变量 使 用 特殊 属性 


_ attribute (( section _ (".aata.init_task"))) 加 以 修饰 ,从 而 将 该 全 局 变量 链接 到 一 
个 特别 的 程序 段 内 。 在 链接 脚本 kernellds 中 ， 已 为 这 个 特别 的 程序 段 规划 了 地 址 空间 ， 代 码 清单 4-94 


规划 了 这 个 段 所 在 的 地 址 空间 。 
代码 清单 4-94 ”第 4 章 \ 程 序 \ 程 序 4-11\kernel\Kernel.lds 


SECTIONS 
{ 


:{ PT . 

. = ALIGN(32768); 
datal Lnitotask.. 7 
.bss : {ee } 


“(datav nlitetask) 汗 


} 


这 个 .data.init_task 段 被 放置 在 只 读数 据 段 rodata 之 后 ， 并 按照 32KB 对 齐 。 此 处 采用 32 KB 对 
齐 而 非 8 B 对 齐 ， 是 因为 除 init_task_union 以 外 ， 其 他 union task_union 联 合体 都 使 用 kmalloc 隆 


数 申请 内 存 空间 ， 


函数 kmalloc 返 回 的 内 存 空间 起 始 地 址 均 按 32KB 对 齐 。 如 果 把 .aata.init_task 段 按 


8 B 对 齐 的 话 ， 在 今后 使 用 宏 current 和 GET_CURRENT 的 过 程 中 难免 会 存在 隐患 。 


代码 清单 4-95 为 操作 系统 定义 了 IA-32e 模 式 下 的 TSS 结 构 、INIT_TSS 初 始 化 宏 以 及 各 处 理 器 的 


TSS 结 构 体 数组 init_tss。 


代码 清单 4-95 ”第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.h 


struct tss_struct 

{ 
unsigned int reserved0; 
unsigned long rsp0; 
unsigned long rspl; 
unsigned long rsp2; 
unsigned long reserved!l1; 
unsigned long isti1; 
unsigned long ist2; 
unsigned long ist3; 
unsigned long ist4; 
unsigned long ist5; 
unsigned long ist6; 
unsigned long ist7; 
unsigned long reserved2; 
unsigned short reserved3; 
unsigned short iomapbaseaddr; 


)_ attribute _((packed)); 
#define INIT_TSS \ 
{ .reserved0 = 0, \ 
.rsp0 = (unsigned long) (init_ task union.stack + STACK_SIZE / sizeof (unsigned 
long)), \ 
.rspl = (unsigned long) (init_ task union.stack + STACK_SIZE / sizeof (unsigned 
long)), \ 
.rsp2 = (unsigned long) (init_ task union.stack + STACK_SIZE / sizeof (unsigned 
long)), \ 
.reserved1l = 0, \ 
.ist1 = Oxffff800000007c00, \ 
.ist2 = Oxffff800000007c00, \ 
.ist3 = Oxffff800000007c00, \ 
.ist4 = Oxffff800000007c00, \ 
.ist5 = Oxffff800000007c00, \ 
.ist6 = Oxffff800000007c00, \ 
.ist7 = Oxffff800000007c00, \ 
.reserved2 = 0， \ 
.reserved3 = 0, \ 
.iomapbaseaddr = 0 \ 
} 
struet tes struet inrt tSsstNRICPYS] = {" EO sas NRICPUS=1] SS TNIT TSS: }; 


代码 清单 4-95 中 的 struct tss_struct 结 构 体 采用 ”attribute _( (packed) ) 属 性 修饰 ， 这 
个 属性 描述 这 个 结构 体 是 一 个 紧凑 结构 ， 编 译 器 不 会 对 此 结构 体内 的 成 员 变 量 进 行 字 节 对 章 。 

在 不 久 的 将 来 ， 我 们 将 会 实现 系统 调用 API 功 能 ， 它 与 中 断 /异常 处 理 程序 相同 ， 都 必须 在 处 理 程 
序 人 口 处 保存 程序 的 执行 现场 ,在 返回 处 恢复 程序 的 执行 现场 。 为 了 便于 开发 编程 ， 现 在 特 将 执行 现 
场 数 据 组 织 成 一 个 结构 体 ， 具 体 定义 如 代码 清单 4-96。 


代码 清单 4-96 第 4 章 \ 程 序 \ 程 序 4-11\kernel\ptrace.h 


struct pt_regs 


€ 
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unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 


4 


Lond. E19 
lOng. rid 
long r13; 
ong rl 
16ng> 人 TLy 
Lori :103 
LOnd- 9 
TOnd “rr8, 
long rbx; 
Io0ng ons 
Don "ebx 
long rsi; 
long rdi; 
long rbp; 
long ds; 
long es; 
long rax; 
Ong ‘fune, 
long errcode; 
long rip; 
long cS; 
long rflags; 
long rsp; 
long ss; 


由 于 系统 调用 API 不 会 生成 错误 码 ， 为 了 既 兼 顾 中 断 / 异 常 处 理 程序 ， 又 兼顾 系统 调用 API 人 处 理 程 
序 ， 因 此 这 里 将 根据 中 断 /异常 处 理 程序 的 执行 过 程 来 设计 struct pt_regs 结 构 体 。 随 着 struct 
pt_regs 结 构 体 的 设计 与 实现 ， 系 统 内 核 的 中 断 /异常 处 理 也 数 也 应 该 相继 作出 调整 和 升级 。 


最 后 再 来 实现 get_current 函 数 和 GET_CURRENT 宏 ， 它 们 是 从 Linux 内 核 源码 中 借鉴 而 来 ， 用 于 
获得 当前 struct task_struct 结 构 体 ， 具 体 程 序 实 现 参 见 代 码 清 单 4-97 所 示 。 


代码 清单 4-97 第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.h 


inline struct task_struct * get_current () 


{ 


struct task_struct * current = NULL; 


asm 


volatile _ ("andqg %%rsp,%0 \n\t":"=r" (current):"0"(~32767UL)); 


return eurrentys 


2} 


#define current get_current() 


#define GET_CURRENT 各 
"movg S$rsp, Srbx MnNt” \ 
"andq $-32768,%rbx HN 


这 上段 程序 正 是 借助 设计 struct task_union 时 使 用 的 32 KB 对 齐 技 巧 来 实现 的 。get_current 


函数 与 GET_CURRENT 宏 均 是 在 当前 栈 指针 寄存 器 RSP 的 基础 上 ， 按 32 KB 下 边界 对 齐 实现 的 。 实 现 方 


是 将 数值 32767 (32KB-1 ) 取 反 ， 再 将 所 得 结果 0xffffftffffftftf8000 与 栈 指针 寄存 器 RSP 的 值 执 


行 逻 加 


T 


与 计算 ， 计 算 结 果 就 是 当前 进程 struct task_struct 结 构 体 的 基地 址 。 


4.8.3 init 进程 


虽然 操作 系统 已 经 拥有 第 一 个 进程 的 进程 控制 结构 体 ， 但 进程 间 的 切换 方法 ， 对 于 我 们 来 说 却 依 
然 是 个 这 。 本 闻 将 以 系统 的 第 二 个 进程 为 例 ， 讲 述 进程 的 创建 与 切换 过 程 。 

进程 间 的 切换 过 程 主要 涉及 页 目录 的 切换 和 各 寄存 器 值 的 保存 与 恢复 等 知识 点 。 由 于 进程 问 的 切 
换 过 程 必须 在 一 块 公共 区 域内 进行 ， 故 此 这 块 区 域 往往 由 内 核 空间 提供 。 这 也 暗示 着 进程 的 应 用 层 空 
间 由 应 用 程序 自身 维护 ， 从 而 使 得 进程 可 运行 各 自 的 程序 。 而 内 核 层 空间 则 用 于 处 理 所 有 进程 对 系统 
的 操作 请 求 ， 这 其 中 就 包括 进程 间 的 切换 操作 ， 因 此 内 核 层 空间 是 所 有 进程 共享 的 。( 在 8.4 节 中 将 会 
详细 介绍 操作 系统 的 地 址 空间 划分 情况 。 ) 只 有 这 样 才能 实现 进程 间 切 换 的 工作 ， 如 果 将 进程 间 的 切 
换 功 能 迁移 至 应 用 层 空 间 执行 , 那么 它 或 许 能 完成 线程 间 的 切换 工作 。 图 4-25 是 进程 间 的 切换 示意 图 。 


prev next 
struct pt_regs struct pt_regs 
struct task_struct struct task struct 
struct thread_struct *thread struct thread struct *thread 
struct thread_struct struct thread_struct 
rspO Irsp rip rsp0O rsp rip 
Switch to 
{ 
mov rsp,prev->thread->rsp 


mov $1f,prev->thread->rip 
mov nextf>thread->rsp,rsp 
push nextf>thread->Tip 
jmp _ switch to 
l: | 

} | 


图 4-25 ”进程 间 的 切换 示意 图 


从 图 4-25 中 可 知 ，prev 进 程 通过 调用 switch_to 模 块 来 保存 RSP 寄 存 器 的 当前 值 ， 并 指定 切换 
加 prev 进 程 时 的 RIP 寄 存 器 值 ， 此 处 默认 将 其 指定 在 标识 符 1: 处。 随后 ,将 next 进 程 的 栈 指针 人 恢复 
到 RSP 寄 存 器 中 ， 再 把 next 进 程 执行 现场 的 RIP 寄 存 器 值 压 人 next 进 程 的 内 核 层 栈 空间 (RSP 寄存 
器 的 恢复 在 前 ， 此 后 的 数据 将 压 人 next 进 程 的 内 核 层 栈 空间 )。 最 后 ， 借 助 JMP 指 令 执行 
switch_ to 因数 ， 而 丽 数 switch_to 会 在 返回 过 程 中 执行 RET 汇 编 指 令 ， 进 而 跳 转 至 next 进 
程 继续 执行 ( 恢复 执行 现场 的 RIP 寄 存 器 )。 至 此 ， 进 程 间 的 切换 工作 执行 完毕 ， 代 码 清单 4-98 是 
switch_to 模 块 的 程序 实现 。 
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代码 清单 4-98 ”第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.h 


#define Switch tol(prev,next) 


do{ 


2 BIL 


}while(0) 


代码 清单 4-98 实 现 了 


\ 

SS 

volatile _ ( "pushqa %$%Irbp NANE” \ 
"pushqa SSrax VTiNt™ % 
"movga S$%Srsp, 多 NTINCE \ 
"movg gs2 ， %$%Srsp NONET \ 
"leaqg 1f(%%rip), SSrax NIINt" * 
"movg SSrax, $1 NNEC \ 
"pushqa %3 \n\t" S 

"jmp __switch to KTR \ 

和 \n\t" \ 
"popq SSrax NTINEN \ 
"Dopd %$%SIrbp NINE \ 
:"=m" (prev->thread->rsp),"=m" (prev->thread->rip) SN 
m" (next->thread->rsp),"m" (next->thread->rip),"D" (pre 

VvV),"S" (next) \ 

: "memory" NV 

es \ 


图 4-25 所 展示 的 进程 切换 过 程 ， 其 中 的 RDI 和 RSI 寄 存 器 分 别 保存 着 安 参 数 


prev 和 next 所 代表 的 进程 控制 结构 体 ， 宏 参数 prev 代 表 当 前 进程 控制 结构 体 (指针 )， 宏 参数 next 
代表 目标 进程 控制 结构 体 (指针 )。 
在 调用 __switch_to 子 数 时 ,模块 switch_to 会 将 RDI 和 RSI 寄 存 器 的 值 作为 参数 传递 给 


__ switch_to 国 数 。 进 入 switch_to 国 数 后 ， 


switch_to 国 数 会 继续 完成 进程 切换 的 后 续 工 作 


内 容 。 请 读者 继续 往 下 看 switch_to 函 数 的 实现 ， 如 代码 清单 4-99 所 示 。 


代码 清单 4-99 ”第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.c 


inline void __ switch tol(struct task_ struct *prev,struct task_struct *next) 


{ 


init tss[0] .rsp0 = next->thread->rsp0; 


Set Ges64(1nit tse[0] TsO Lnlt Gesl0]. FSDL,. nitu tSS[0]. PSD 
init tss[0] .ist1, init tss[0] .ist2, init tss[0] .ist3, init tss[0].ist4, 
init_tss[0] .ist5, init_ tss[0] .ist6, init_ tss[0] .ist7); 


| Vola 
| Vola 


We Hl 
_asm _ 


vola 


color_printk(W 
color_printk(W 


} 


tile _("movg S$%Sfs, $0 \n\t":"=a" (prev->thread->fs)); 
tile _("movg S$%gs, $0 \n\t":"=a" (prev->thread->gs)); 
tile _("movg $0, ggES \n\t"::"a" (next->thread->fs)); 
tile _("movg $0, $%gs \n\t"::"a" (next->thread->gs)); 


HITE, BLACK, "prev->thread->rsp0:%#018lx\n",prev->thread->rsp0); 
HITE, BLACK, "next->thread->rsp0:%#018lx\n",next->thread->rsp0); 


函数 __switch_to 首 先 将 next 进 程 的 内 核 层 栈 基地 址 设置 到 TSS 结 构 体 对 应 的 成 员 变 量 中 。 随 
后 ， 保 存 当 前 进程 的 FS 与 GS 段 寄存 器 值 ， 再 将 next 进 程 保存 的 FS 与 GS 段 寄存 器 值 还 原 。 
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应 用 程序 在 进入 内 核 层 时 已 将 进程 的 执行 现场 (所 有 通用 寄存 器 值 ) 保存 起 来 ， 所 以 进程 切换 过 
程 并 不 涉及 保存 /还 原 通用 寄存 器 ， 仅 需 对 RIP 寄 存 器 和 RSP 寄 存 器 进行 设置 。 

既然 已 经 掌握 进程 间 的 切换 方法 ， 那么 下 面 就 来 小 斌 牛刀。 首先 要 完成 对 操作 系统 第 一 个 进程 的 
初始 化 工作 ， 再 调用 函数 kernel_thread 为 系统 创建 出 一 个 新 进程 ， 随 后 借助 switch_to 模 块 执行 
进程 实现 切换 ， 代 码 清单 4-100 是 这 部 分 功能 的 程序 实现 。 


代码 清单 4-100 ”第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.c 


void task_ init() 


{ 


struct task_struct *p = NULL; 


init_ mm.pgd = (pml4t_t *)Global_CR3; 

init_mm.start_code = memory_management_struct.start_code; 

init_mm.end code = memory_management_struct.end_ code; 

init_mm.start_data = (unsigned long)& data; 

init_mm.end data = memory_management_struct.end data; 

init_mm.start_rodata = (unsigned long)&_ rodata; 

init_mm.end rodata = (unsigned long)& erodata; 

init_mm.start_pbrk = 0; 

init_mm.end brk = memory_management_struct.end prk; 

init_mm.start_stack = _stack_ start; 

// init_thread,init_ tss 

set_tss64(init thread.rsp0, init_ tss[0] .rspl, init tss[0] .rsp2, 
init_ tss[0] .ist1, init tss[0] .ist2, init_ tss[0] .ist3, init_ tss[0].ist4, 
init_tss[0] .ist5, init_ tss[0] .ist6, init_ tss[0] .ist7); 


init_tss[0] .rsp0 = init_ thread.rsp0; 


list_init(&init task union.task.1list); 

kernel_thread (init,10,CLONE_FS | CLONE_FILES | CLONE_SIGNAL); 
init_task union.task.state = TASK_RUNNING; 

p = container_ of (list next (&current->list),struct task_ struct,list); 
Switch tol(current,p); 


} 

这 段 程序 将 补 完 系统 第 一 个 进程 控制 结构 体 中 未 赋值 的 成 员 变 量 ， 并 为 其 设置 内 核 层 栈 基 地 址 
(位 于 Tss 结 构 体 内 )， 其 实处 理 器 早已 运行 在 第 一 个 进程 中 ， 只 不 过 此 前 的 进程 控制 结构 体 尚 未 初始 
化 完毕 。 此 处 要 特别 注意 全 局 变量 _stack_start， 它 记录 着 系统 第 一 个 进程 的 内 核 层 栈 基地 址 ， 其 
定义 如 代码 清单 4-101 所 示 。 


代码 清单 4-101 第 4 章 \ 程 序 \ 程 序 4-11\kernel\head.S 


ENTRY (_stack_start) 
.quad init_ task union + 32768 


其 实 ， 全 局 变量 _stack_start 保 存 的 数值 与 init_threadq 结 构 体 变量 中 *sp0 成 员 变 量 的 数 
值 是 一 样 的 ， 都 指向 了 系统 第 一 个 进程 的 内 核 层 栈 基 地 址 ， 这 不 是 巧合 而 是 精心 设计 的 。 定 义 全 局 
变量 _stack_start 可 让 内 核 执 行头 程序 直接 使 用 该 进程 的 内 核 层 栈 空间 ， 进 而 减少 栈 空间 切换 带 
来 的 隐患 。 
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通常 情况 下 ， 系 统 的 第 一 个 进程 会 协助 操作 系统 完成 一 些 初 始 化 任务 ， 该 进程 会 在 执行 完 初始 化 
任务 后 进入 等 待 状态 ， 它 会 在 系统 没有 可 运行 进程 时 休眠 处 理 器 以 达到 省 电 的 目的 ， 因 此 系统 的 第 一 
个 进程 不 存在 应 用 层 空间 。 对 于 这 个 没有 应 用 层 空间 的 进程 而 言 ， 其 init_mm 结 构 体 变量 ( struct 
mm_struct 结 构 体 ) 保存 的 不 再 是 应 用 程序 信息 ， 而 是 内 核 程 序 的 各 个 段 信息 以 及 内 核 层 栈 基地 址 。 

接 下 来 ，task_init 也 数 执行 kernel_thread 也 数 为 系统 创建 第 二 个 进程 ， 这 个 进程 经 常 称 作 
“init 进 程 "。 对 于 调用 kernel_thread 函 数 时 传人 的 CLONE_FS、CLONE_FILES、CLONE_SIGNAL 
等 克隆 标志 位 ， 目 前 并 未 实现 相应 功能 ， 而 暂 作 预 留 使 用 。 

本 节 的 侧重 点 是 如 何 创 建 init 进 程 以 及 如 何 切换 到 init 进 程 运 行 ， 故此， 目前 的 ijnit 进 程 并 无 
实体 功能 ， 只 为 证 明 已 在 运行 而 在 屏幕 上 打印 一 些 信息 ， 参 见 代 码 清单 4-102。 


代码 清单 4-102 ”第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.c 


unsigned long init (unsigned long arg) 

{ 
color_printk (RED,BLACK, "init task is running,arg:%#018l]x\n",arg); 
return 1; 


} 

init 进 程 只 显示 了 创建 者 传人 的 参数 并 返回 1。 可 能 一 些 读者 会 困惑 : 这 明明 是 个 函数 ， 一 点 进 
程 的 感觉 都 没有 。 其 实 init 函 数 与 我 们 日 常 编写 的 主 也 数 main 一 样 ， 经 过 编译 器 的 编译 生成 若干 个 
程序 片段 并 记录 程序 的 入 口 地 址 ， 当 操作 系统 为 程序 创建 进程 控制 结构 体 时 ， 操 作 系 统 会 取得 程序 的 
入 口 地 址 ， 并 从 这 个 入 口 地 址 处 执行 。 因 此 从 编程 的 角度 来 看 ， 进 程 是 由 一 系列 维护 程序 运行 的 信息 
和 若干 组 程序 片段 构成 。 

当 init 卫 数 准 备 就 绕 , 还 需要 实现 kernel_thread 哨 数 , 来 为 操作 系统 创建 进程 , 代码 清单 4-103 
是 kernel_thread 函 数 的 程序 实现 。 


代码 清单 4-103 ”第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.c 


int kernel thread (unsigned long (* fn) (unsigned long), unsigned long arg, unsigned long 
flags) 


{ 
struct pt_regs regs; 
memset (&regs,0,sizeof (regs)); 


regs.rbx = (unsigned long)fn; 

regs.rdx = (unsigned long)arg; 

regs.ds = KERNEL_DS; 

regs.es = KERNEL_DS; 

regs.cs = KERNEL_CS; 

regs.ss = KERNEL_DS; 

regs. rflags = (1 we 9)3 

regs.rip = (unsigned long)kernel thread_ func; 


return do_fork(&regs,flags,0,0); 
} 


函数 kernel_thread 首 先 创 建 struct pt_regs 结 构 体 变量 ， 来 为 新 进程 准备 执行 现场 的 数据 ， 
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其 中 的 RBX 寄 存 器 保存 着 程序 的 入 口 地 址 ，RDX 寄 存 器 保存 着 进程 创建 者 传人 的 参数 ，RIP 寄 存 器 保 
存 着 一 段 引 导 程 序 ( kernel_threag_func 模 块 )， 这 上 段 引 导 程 序 会 在 目标 程序 (保存 于 参数 fn 内 ) 
执行 前 运行 。 

随后 ， 函 数 kernel_threadq 将 新 进程 的 执行 现场 数据 传递 给 ao_fork 函 数 ， 来 创建 进程 控制 结 
构 体 并 完成 进程 运行 前 的 初始 化 工作 。 由 此 可 见 ，qo_fork 羡 数 和 kernel1_thread_func 模 块 才 是 创 
建 进程 的 关键 代码 。 根 据 程 序 的 调用 顺序 ， 先 来 看 4o_fork 函 数 的 功能 实现 ， 如 代码 清单 4-104 所 示 。 


代码 清单 4-104 ”第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.c 


unsigned long do_fork(struct pt_regs * regs, unsigned long clone_ flags, unsigned long 
stack_start, unsigned long stack_ size) 


{ 
struct task_struct *tsk = NULL; 
struct thread_struct *thd = NULL; 
struct Page *p = NULL; 


Color_printk (WHITE,BLACK,"alloc pages,bitmap:%#0181x\n",*memory_management_ 
struct.bits_ map); 


p = alloc_pages (ZONE_NORMAL,1,PG PTable Maped | PG Active | PG Kernel); 


Color_printk (WHITE,BLACK,"alloc pages,bitmap:%#0181x\n",*memory_management_ 
struct.bits_ map); 


tsk = (struct task_struct *)Phy_To_Virt(p->PHY_address); 
Color_printk (WHITE,BLACK,"struct task_ struct address:%#0181lx\n", (unsigned 
long)tsk); 


memset (tsk,0,sizeof (*tsk)); 
“tsk “eurrent 


list_init(&tsk->list); 

list_adqd to _ before(&init task union.task.list,é&tsk->list); 
tsk->pid++; 

tsk->state = TASK_UNINTERRUPTIBLE; 


thd = (struct thread_ struct *) (tsk + 1); 
tsk->thread = thd; 


memcpy (regs, (void *) ((unsigned long)tsk + STACK_SIZE - sizeof(struct pt_regs)), 
sizeof (struct pt_regs)); 


thd->rsp0 = (unsigned long)tsk + STACK_SIZE; 
thd->rip = regs->rip; 
thd->rsp = (unsigned long)tsk + STACK_SIZE - sizeof (struct pt_regs); 


if(!(tsk->flags & PF_KTHREAD)) 
thd->rip = regs->rip = (unsigned long)ret_from intr; 


tsk->state = TASK_RUNNING; 


return 0; 
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目前 的 dao_fork 函 数 已 基本 实现 进程 控制 结构 体 的 创建 以 及 相关 数据 的 初始 化 工作 。 由 于 内 核 尚 
未 实现 内 存 分 配 功能 , 以 至 于 内 存 空间 的 使 用 只 能 暂时 以 物理 页 为 单位 同时 , 为 了 检测 alloc_pages 
函数 的 执行 效果 ， 在 分 配 物 理 页 的 前 后 分 别 打印 出 物理 内 存 页 的 位 图 映射 信息 ， 通 过 此 信息 可 查询 出 
物理 内 存 页 的 使 用 。 

接着 ,将 当前 进程 控制 结构 体 中 的 数据 复制 到 新 分 配 物 理 页 中 ( 物理 页 的 线性 地 址 起 始 处 )， 并 
进一步 初始 化 相关 成 员 变 量 信 息 。 这 个 初始 化 过 程 包括 使 用 1ist- addq_to_pefore 国 数 链接 人 进程 队 
列 、 分 配 和 初始 化 struct threaq_struct 结 构 体 、 伪 造 进程 执行 现场 (把 执行 现场 数据 复制 到 有 目 
标 进 程 的 内 核 层 栈 顶 处 )。 

最 后 ， 还 要 判断 目标 进程 的 PF_KTHREAD 标 志 位 ， 以 确定 目标 进程 运行 在 内 核 层 空 间 还 是 应 用 层 
空间 。 如 果 复 位 PF_KTHREAD 标 志 位 ， 则 说 明 进 程 运行 于 应 用 层 空 间 ， 那 么 将 进程 的 执行 入 口 地 1 Ss 
置 在 ret_from_intr 地 址 处 ; 否则 将 Oe el rnel_thread_func 地 址 处 。 这 
里 还 需要 补充 说 明 一 点 ， 在 初始 化 进程 控制 结构 体 时 ， 未 曾 分 配 struct mm_struct 的 存储 空间 ， 
依然 沿用 全 局 变量 init_mm。 这 是 考虑 到 分 配 页 表 是 一 件 无 聊 的 体力 活 ， 既 然 init 进 程 此 时 还 运行 在 
内 核 层 空间 ， 那 么 在 实现 内 存 分 配 功 能 前 暂且 不 创建 新 的 页 目录 和 页 表 。 

当 go_fork 函 数 将 目标 进程 设置 为 运行 态 后 ， 在 全 局 链表 ( init_task_union.task.1ist ) 中 
已 经 有 两 个 可 运行 的 进程 控制 结构 体 。 一旦 task_init 函 数 执行 switcn_to 模 块 ， 操作 系统 便 会 切换 
进程 , 从 而 使 处 理 器 开始 执行 init 进 程 , 由 于 init 进 程 运行 在 内 核 层 空间 , 因此 init 进 程 在 执行 jnit 
函数 前 会 先 执行 kernel_threaaq_func 模 块 。 

kernel_threag_func 模 块 由 一 小 段 汇编 程序 构成 ， 此 模块 负责 还 原 进程 执行 现场 、 运 行进 程 以 
及 退出 进程 ， 其 代码 实现 如 代码 清单 4-105 所 示 。 


代码 清单 4-105 ”第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.c 


extern void kernel thread_ func (void); 


asm (人 

"kernel_thread_func: NiNt 

popg S$r15 NIN 
Dopd Sr14 NE 
Dopd S$r13 NTNE™ 
Dopd Sr12 \n\t" 
Dopd 委 工 工 工 NANE 
popg sr10 \n\t" 
popgq Sr9 MmNt” 
popg $Ir8 WNt 
popgq Srbx NNNtY 
popgq SIrCx NniNt™ 
popgq Srdx NTENE™ 
popg Srsi NXE 
popg Srdi NTN 
popg srbp NIN 
popgq Srax YniNt™ 
movdaq Srax, $ds NNEGE" 
Popd Srax \n\t" 
movdaq Srax, ges ANET 
Popd Srax NHN 


addq SOx38， gsrSsP NE 


八仙 


movg Srdx, Srdi \n\t" 
calld *Srx NTN 
movg Srax, Srdi MNT 
callqa do_exit NILNE 


); 

当 处 理 带 执行 kernel_thread_func 模 块 时 , 栈 指针 寄存 右 RSP 正 指向 当前 进程 的 内 核 层 栈 顶 地 
址 ， 此 刻 的 栈 顶 位 于 栈 基地 址 向 下 偏 移 struct pt_regs 结 构 体 处 。 经 过 若干 个 PoP 汇 编 指令 ， 最终 
将 RSP 寄 存 器 平衡 到 栈 基 地 址 处 ， 进 而 达到 还 原 进程 执行 现场 的 目的 。 这 个 执行 现场 是 在 函数 
kernel_thread 中 伪造 的 ， 其 中 的 RBX 寄 存 器 保存 着 程序 执行 片段 , RDX 寄 存 器 保存 着 传人 的 参数 。 

在 进程 执行 现场 还 原 后 ， 将 借助 指令 caLL 执 行 RBX 寄 存 器 保存 的 程序 执行 片段 (init 进程) 一 
旦 程序 片段 返回 便 执行 4o_exit 函 数 退 出 进程 。 

函数 ao_exit 用 于 释放 进程 控制 结构 体 ， 由 于 进程 控制 结构 体 的 释放 过 程 相对 复杂 ， 此 处 暂 不 予 
以 实现 但 为 了 证 明 ao_exit 函 数 被 执行 过 , 特 在 屏幕 上 打印 一 条 日 志 信息 . 代码 清单 4-106 是 ao_exit 
函数 的 实现 。 


代码 清单 4-106 ”第 4 章 \ 程 序 \ 程 序 4-11\kernel\task.c 


unsigned long do_exit (unsigned long code) 


{ 


Color_printk (RED,BLACK, "exit task is running,arg:%#0181lx\n",code); 
while(1); 
} 


函数 dao_exit 目 前 的 工作 是 将 init 进 程 的 返回 值 打印 在 屏幕 上 。 至 此 init 进 程 的 创建 过 程 已 经 
完成 。 

看 到 这 里 ， 想 必 读 者 已 经 明白 do_fork 才 是 创建 进程 的 核心 函数 ， 而 kernel_thread 函 数 则 更 
像 是 对 创建 出 的 进程 做 了 特殊 限制 ， 这 个 由 kernel_thnread 函 数 创 建 出 来 的 进程 看 起 来 更 像 是 一 个 
线程 。 尽 管 kernel_thread 函 数 借助 do_fork 孙 数 创建 出 了 进程 控制 结构 体 ， 但 是 这 个 进程 却 没有 
应 用 层 空 间 (复制 系统 第 一 个 进程 的 进程 控制 结构 体 )。 其 实 ，kernel_threagd 函 数 只 能 创建 出 没有 
应 用 层 空 间 的 进程 ， 如 果 有 诸多 这 样 的 进程 同时 运行 在 内 核 中 ,它们 看 起 来 就 像 是 内 核 主 进程 创建 出 
的 若干 个 线程 一 般 ， 因 此 它们 通常 被 叫 作 内 核 线程 。 这 段 程序 参考 了 Linux 1~4 各 个 版 本 中 关于 内 核 线 
程 的 函数 实现 。 综 上 所 述 ，kerne1l_thread 函 数 的 功能 是 创建 内 核 线 程 ， 所 以 init 此 时 是 个 内 核 级 
的 线程 ， 但 它 不 会 一 直 是 个 内 核 线程 。 当 init 内 核 线 程 执 行 4o_execve 函 数 后 ， 它 会 转变 为 一 个 用 
户 级 进程 ， 这 部 分 内 容 将 在 第 12 章 中 实现 。 

task_init 了 水 数 创建 出 内 核 线 程 后 , 将 借助 宏 也 数 container_of 获 取 init 内 核 线程 的 进程 控制 
结构 体 ， 其 程序 实现 如 代码 清单 4-107 所 示 。 


代码 清单 4-107 第 4 章 \ 程 序 \ 程 序 4-11\kernel\lib.h 


#define container_of (ptr,type,member) \ 
({ \ 
typeof (((type *)0)->member) * p = (ptr); SN 


(type *) ((unsigned long)p - (unsigned long)&(((type *)0)->member)); 六 
} 
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相信 看 过 Linux 内 核 的 读者 对 宏 函 数 container_of 的 作用 并 不 陌生 ，container_of 可 以 根据 结 
构 体 变量 内 的 某 个 成 员 变 量 基 地 址 ， 准 确 计算 出 结构 体 变 量 的 基地 址 ， 即 反 向 推导 出 父 层 结构 的 起 始 
地 址 。 虽 然 这 个 宏 函 数 看 上 去 比较 复杂 ， 但 只 要 将 其 一 层 层 展开 ， 方 可 知晓 它 的 原理 。 表 4-20 描 述 了 
宏 函 数 各 参数 的 功能 。 


表 4-20 ”container_of 宏 函数 的 参数 功能 说 明 


参数 名 功能 描述 

PE 表示 结构 体 变 量 内 的 某 个 成 员 变 量 基地 址 ， 通 过 该 地 址 可 推算 出 成 员 变 量 所 在 父 结构 的 基地 址 
type 成 员 变 量 所 在 结构 体 

member 成 员 变 量 名 


结合 表 4-20 与 宏 函 数 的 代码 实现 可 知 ， 整 个 推算 过 程 分 为 两 步 ， 首先 计算 出 成 员 变量 mempber 在 
type 结 构 体 内 的 偏 移 ， 随 后 再 根据 ptr 参 数 提供 的 实际 地 址 计算 吉 构 体 变量 的 起 始 地 址 。 这 段 代码 
的 巧妙 之 处 在 于 , 运用 0 地 址 计算 出 成 员 变 量 在 结构 体内 的 偏 移 ， 之 后 只 需 使 用 ptr 减 轻 此 偏 移 值 即 可 
得 到 结构 体 变 量 的 起 始 地 址 。 

随 着 init 进 程控 制 结构 体 的 取得 , 方 可 调用 switch_to 模 块 切换 至 init 内 核 线程 , 图 4-26 是 init 
程 的 运行 效果 。 


津 


Bochs x86-64 emulator, http://bochs.sourceforge.net/ 


Il | | 


图 4-26 ”init 进 程 的 运行 效果 轿 
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通过 本 章 的 学 习 ， 相 信 读 者 不 会 再 对 系统 内 核 的 功能 感到 陌生 。 下 一 章 将 会 把 工作 重心 向 应 用 
迁移 ， 实 现 从 内 核 层 到 应 用 层 的 跳 转 、 系 统 调 用 API 接 口 以 及 应 用 程序 。 


经 过 前 一 章 的 学 习 ， 我 们 已 经 简单 实现 了 操作 系统 的 内 核 层 程序 。 虽 然 这 个 系统 的 核心 极其 简 
陋 ， 但 它 已 是 原理 性 知识 的 实践 化 ， 这 就 是 一 种 进步 。 内 核 层 主要 是 为 应 用 层 提供 服务 的 ， 既 然 内 核 
层 已 经 初步 实现 ， 本 章 将 会 把 工作 重心 从 内 核 层 转移 到 应 用 层 。 
每 个 应 用 程序 都 拥有 独立 的 应 用 层 空间 ， 应 用 程序 可 在 应 用 层 空间 内 随心 所 欲 执行 ， 但 它们 不 会 
直接 操作 外 部 硬件 设备 ， 而 且 由 于 应 用 层 处 于 最 低 特权 级 ， 这 使 得 它们 也 不 具备 配置 处 理 器 的 能 力 。 
如 果 应 用 层 想 完成 上 述 操作 ， 则 必须 借助 内 核 层 提供 的 服务 程序 才能 实现 。 即 使 进程 间 通 信也 必须 借 
助 内 核 层 提供 的 服务 程序 才能 传递 消息 。 接 下 来 ， 就 让 我 们 一 起 看 看 应 用 层 的 那些 事 。 


5.1 跳 转 到 应 用 层 


由 于 系统 内 核 位 于 0 特权 级 的 内 核 层 ， 而 应 用 程序 位 于 3 特权 级 的 应 用 层 ， 若 想 从 内 核 层 进入 应 用 

层 ， 在 特权 级 跳 转 的 过 程 中 必须 提供 目标 代码 段 和 栈 段 以 及 其 他 跳 转 信息 。 读 者 首先 想到 的 解决 方法 
可 能 是 ， 借 助 RET 类 指令 从 伪造 的 函数 调用 现场 中 返回 到 目标 程序 段 。 这 个 原理 要 从 cALL 与 RET 指 令 

在 不 同 特权 级 间 的 操作 说 起 。( 请 参考 Intel 官 方 白皮书 Volume 1 的 6.3.6 节 。) 

当 程序 借助 cALL 指 令 访 问 更 高 特权 级 的 调用 门 时 ， 人 处 理 器 将 按照 以 下 步骤 为 程序 准备 执行 环境 ， 
图 5-1 描 绘 了 程序 借助 调用 门 访问 不 同 特权 级 时 的 栈 切 换 过 程 。 

(1) 检测 目标 程序 的 访问 权限 ， 此 处 主要 针对 段 模式 的 特权 级 进行 检查 。 

(2) 临时 把 SS 、ESP、CS 和 EIP 寄 存 器 的 当前 值 保存 在 处 理 器 内 部 ， 以 备 调用 返回 时 使 用 。 

(3) 依据 目标 代码 段 的 特权 级 ， 处 理 器 从 TSS 结 构 中 提取 出 相应 特权 级 的 栈 段 选择 子 和 栈 基地 址 ， 
并 将 其 作为 目标 程序 的 栈 空间 更 新 到 SS 和 ESP 寄 存 器 中 。 

(4) 将 步骤 (2) 临 时 保存 的 SS 和 ESP 寄 存 器 值 存 人 目标 程序 的 栈 空间 。 

(5) 根据 调用 门 描述 符 记 录 的 参数 个 数 ， 从 调用 者 栈 空间 复制 参数 到 目标 程序 栈 。 

(6) 将 步 又 (2) 临 时 保存 的 CS 和 BIP 寄 存 器 值 存 人 目标 程序 的 栈 空 s 间 。 

(7) 将 调用 门 描 述 符 记录 的 目标 代码 段 选择 子 和 程序 的 起 始 地 址 加 载 到 CS 和 EIP 寄 存 器 中 。 

(8) 处 理 器 在 目标 代码 段 特 权 级 下 执行 程序 。 

当 程 序 跨 特权 级 间 返 回 时 ， 处 理 器 将 按照 以 下 步骤 还 原 调 用 者 的 执行 环境 ， 这 个 过 程 依然 可 以 参 
考 图 5-1。 而 对 于 相同 特权 级 的 程序 访问 ， 处 理 器 并 不 会 切换 程序 的 栈 空间 ， 因 此 只 有 参数 ( 可 选 )、 
EIP 寄 存 器 以 及 CS 寄存 器 〈 只 在 段 间 访 问 时 人 栈 ) 会 存 人 栈 空间 。 


z 


172 第 5 章 应 用 层 


调用 者 的 栈 空间 被 调用 者 的 栈 空间 
调用 者 SS 
调用 者 ESP 
参数 1 参数 1 
调用 前 的 栈 帧 参数 2 参数 2 调用 后 的 栈 由 
L 参数 3 < 一 调用 前 的 ESP 位 置 参数 3 
调用 者 CS 
调用 后 的 ESP 位 置 一 一 > 调用 者 EIP 


周 用 者 SS 
用 者 ESP 
参数 1 
参数 2 
参数 3 
用 者 CS 
用 者 EIP 


在 
下 


< 一 调用 返回 后 的 ESP 位 置 


Pee 
er 


一 


时 | 串 | 吕 
| 


RS 


四 
四 | 
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调用 返回 前 的 ESP 位 置 一 


图 5-1 借助 调用 门 访问 不 同 特权 级 时 的 栈 切 换 过 程 


(1) 检测 目标 程序 的 访问 权限 ， 此 处 同样 针对 段 模式 的 特权 级 进行 检查 。 

(2) 还 原 调 用 者 的 CS 和 EIP 寄 存 器 值 ， 它 们 在 调用 过 程 中 已 保存 在 被 调用 者 栈 空间 。 

(3) 如 果 RET 指 令 带 有 操作 数 n， 那 么 栈 指针 将 向 上 移动 个 字 节 来 释放 被 调用 者 栈 空间 。 如 果 访 问 
来 自 调用 门 ， 那 么 RET z 指 令 将 同时 释放 被 调用 者 与 调用 者 栈 空间 。 

(4) 还 原 调用 者 的 SS 和 ESP 寄 存 器 值 ， 此 举 使 得 栈 空间 从 被 调用 者 切换 回调 用 者 。 

(5) 如 果 RET 指 令 带 有 操作 数 n-， 则 参照 步骤 (3) 的 执行 过 程 释放 调用 者 栈 空间 。 

(6) 处 理 器 继续 执行 调用 者 程序 。 

经 过 以 上 描述 ， 我 们 相信 读者 对 这 个 执行 过 程 已 经 不 再 陌生 。 现 在 可 参照 一 些 图 书 或 老 版 本 的 
Linux 内 核 介 绍 的 那样 ， 通 过 RET 指 令 〈 调 用 返回 指令 ) 或 ITRET 指 令 〈 中 断 返 回 指令 ) 来 达到 跳 转 至 
应 用 层 的 目的 。 不 过 ，RET 类 指令 的 执行 速度 特别 慢 ， 考 虑 到 这 类 指令 消耗 的 处 理 器 时 钟 周期 数 过 多 ， 
Intel 推 出 了 一 套 新 的 指令 SYSsENTER/SYSEXIT 实 现 快速 系统 调用 。 

指令 SYSsENTER/SYSEXIT 的 显著 优点 是 ， 整 个 调用 过 程 不 会 执行 数据 压 栈 ,这样 就 免 去 了 访问 内 
存 的 时 间 消 耗 ， 而 且 在 跨 特 权 级 跳 转 时 不 会 对 段 描述 符 进 行 检测 ， 从 而 使 得 SYSENTER/SYSEXIT 指 令 
能 够 执行 得 更 快 。 但 SyYsENTER 指 令 只 能 从 3 特权 级 跳 转 至 0 特权 级 ， 而 sYsExIT 指 令 只 能 从 0 特权 级 跳 
转 至 3 特权 级 ， 这 使 得 两 者 无 法 完成 其 他 特权 级 甚至 是 相同 特权 级 间 的 跳 转 。 因 此 ， 它 们 只 能 为 应 用 
程序 提供 系统 调用 ， 无 法 在 内 核 层 执行 系统 调用 ， 而 中 断 型 系统 调用 却 可 在 任意 权限 下 执行 。 

本 节 将 借助 SYsExIT 汇 编 指 令 来 实现 内 核 层 向 应 用 层 的 跳 转 ， 以 下 是 对 sYsEXxIT 汇 编 指 令 的 概括 
描述 。 

SYSEXIT 指 令 是 一 个 快速 返回 3 特权 级 的 指令 ， 它 只 能 执行 在 0 特权 级 下 。 在 执行 SYSEXIT 指 令 之 
前 ， 处理 器 必须 为 其 提供 3 特权 级 的 衔接 程序 以 及 3 特权 级 的 栈 空间 ， 这 些 数据 将 保存 在 MSR 寄 存 器 和 
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通用 寄存 器 中 。 
口 IA32_ SYSENTER_CS (位 于 MSR 寄 存 器 组 地 址 174h 处 ) 它 是 一 个 32 位 寄存 器 ,用 于 索引 3 特权 
级 下 的 代码 段 选 择 子 和 栈 段 选择 子 。 在 IA-32e 模 式 下 ， 代 码 段 选择 子 为 IA32_SYSENTER_ 
CS[15:0]+32， 否则 为 ILA32_SYSENTER_CS [15:0]+16; 而 栈 段 选择 子 是 将 代码 段 选择 子 加 8。 
口 RDX 寄 存 器 。 该 寄存 器 保存 着 一 个 Canonical 型 地 址 ( 64 位 特有 地 址 结构 ， 将 在 第 6 章 中 详细 介 
绍 )， 在 执行 指令 时 会 将 其 载 人 到 RIPP 寄 存 器 中 ( 这 是 用 户 程序 的 第 一 条 指令 地 址 )。 如 果 返 回 
到 非 64 位 模式 ， 那 么 只 有 低 32 位 被 装载 到 RIP 寄 存 器 中 。 
口 RCX 寡 存 器 该 寄存 器 保存 着 一 个 Canonical 型 地 址 , 执行 指令 时 会 将 其 载 人 到 RSP 寄 存 器 中 ( 这 
是 3 特权 级 下 的 栈 指针 )。 如 果 返 回 到 非 64 位 模式 ， 只 有 低 32 位 被 装载 到 RSP 寄 存 器 中 。 
此 处 的 IA32 SYSENTER _CS 寄 存 器 可 借助 RDMSR/WRMSR 指 令 进 行 访问 。 在 执行 SYsExIT 指 令 的 
过 程 中 ， 处 理 器 会 根据 IA32_ SYSENTER_CS 寄 存 器 的 值 加 载 相 应 的 段 选 择 子 到 CS 和 SS 寄存 器 。 值 得 
注意 的 是 ，sYsExIT 指 令 不 会 从 描述 符 表 (在 GDT 或 LDT ) 中 加 载 段 描述 符 到 CS 和 SS 寄存 器 ， 取 而 代 
之 的 是 向 寄存 器 写 人 固定 值 。 此 举 虽 然 执 行 速度 快 ， 但 不 能 保证 段 描述 符 的 正确 性 ， 必 须 由 操作 系统 
负责 确保 段 描 述 符 的 正确 性 。 
当 操作 数位 宽 为 64 位 时 ， 执 行 SYSEXIT 指 令 后 仍然 保持 64 位 宽 ; 否则 ， 这 条 指令 将 进入 兼容 模式 
(如 果 处 理 吉 运行 在 IA-32e 模 式 下 ) 或 者 进入 保护 模式 〈 如 果 处 理 器 运行 在 非 64 位 模式 下 )。 
上 述 内 容 描 述 了 sYsExIT 汇 编 指令 的 使 用 方法 和 注意 事项 。 下 面 将 根据 这 些 知 识 编写 系统 调用 返 
回 模 块 ， 详 细 程 序 实 现 如 代码 清单 5-1 所 示 。 


代码 清单 5-1 第 5 章 \ 程 序 \ 程 序 5-1\kernel\entry.S 


ENTRY (ret_system call) 


一 二 


ImOVG Srax, 0x80 (S$rsp) 
popq EL 

popq Sr14 

popq Sr13 

popgq Sr12 

popgq Sr11 

popgq Sr10 

popgq SIr9 

popq Sr8 

Dopd Srbx 

Dopd SIrICx 

Dopd Srdx 

Dopd SS 

Dopd Srdi 

popq S$rbp 

Dopd Srax 

movg Srax, sds 
Dopd Srax 

movg Srax, Ses 
Dopd Srax 


addq SOxX3.8 Srsp 
.byte 0x48 
sysexit 


这 段 程序 首先 将 系统 调用 的 返回 值 更 新 到 程序 运行 环境 的 RAX 寄 存 器 中 ， 然 后 恢复 应 用 程序 的 
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T 


执行 环境 。 由 于 sYsExIT 指 令 需要 借助 RDX 与 RCX 寄 存 器 来 恢复 应 用 程序 的 执行 现场 ， 所 以 在 进入 
内 核 层 前 应 该 对 两 者 进行 特殊 处 理 ( 在 应 用 程序 中 实现 )。 最 后 ， 使 用 sysExIT 指 令 跳 转 至 应 用 层 执 
行程 序 。 
1 于 sYsEXIT 指 令 在 64 位 模式 下 的 默认 操作 数 不 是 64 位 ， 如 果 要 返回 到 64 位 模式 的 应 用 层 ， 则 必 
须 在 sSYsExIT 指 令 前 插入 指令 前 级 0x48 加 以 修饰 ， 以 表示 sYsExIT 指 令 使 用 64 位 的 操作 数 。 

因为 IJA32 SYSENTER_CS 寄 存 器 仅 记 录 着 0 特权 级 的 代码 段 ， 为 了 使 SYSEXIT 指 令 可 以 正确 索引 
到 目标 段 选择 子 ， 则 必须 调整 各 段 描述 符 在 全 局 描述 符 表 GDT 中 的 排列 顺序 。 按 照排 列 的 先后 顺序 依 
次 是 : 64 位 0 特权 级 代码 段 、64 位 0 特权 级 栈 段 、32 位 3 特权 级 代码 段 、32 位 3 特权 级 栈 段 、64 位 3 特权 
级 代码 段 、64 位 3 特权 级 栈 段 。 代 码 清单 5-2 是 调整 后 的 GDT。 


代码 清单 5-2 第 5 章 \ 程 序 \ 程 序 5-1\kernel\head.S 


/A GDT_Table 


.Section .data 


.globl GDT_Table 


GDT_Table: 
.quad 0x0000000000000000 /*0 NULL descriptor O07 
.quad 0x0020980000000000 /*1 KERNEL Code 64-bit Segment OQ8*/ 
.quad 0x0000920000000000 /*2 KERNEL Data 64-bit Segment a Ohh 
.quad 0x0000000000000000 /3 USER: Code 32-bit Segment 18*/ 
.Guad 0x0000000000000000 /*4 "JSER Data 32-bit Segment 站 
.Guad 0x0020f80000000000 A/*5 USER Code 64-bit Segment 28*7/ 
.quad 0x0000f20000000000 /*6 USER Data 64-bit Segment BOY 
.Guad 0x00cf9a000000ffff /*7 KERNEL Code 32-bit Segment S84 
.Guad Ox00cf92000000f£ffff /*8 KERNEL Data 32-bit Segment 40*/ 
.fill 10,8,0 /*10 ~ 11 TSS (jmp one segment <9>) in long-mode 

128=bit. SO0* 

GDT_END: 


GDT_POINTER : 
GDT_LIMIT: .word GDT_END - GDT_ Table - 1 
GDT_BASE: .Guad GDT_Table 


此 处 为 GDT 新 增 了 一 个 32 位 的 代码 段 描 述 符 和 一 个 32 位 的 数据 段 描 述 符 ， 它 们 被 插入 到 GDT 的 
第 3 个 描述 符 处 。 这 导致 TSS 段 描述 符 向 后 移动 了 两 个 段 描述 符 的 位 置 ， 从 而 必须 调整 TSS 段 描述 符 
的 初始 化 程序 setup_TSS64， 以 及 调用 宏 函 数 10a9_TR 时 传人 的 参数 值 。 调 整 后 的 程序 请 参见 代码 
清单 5-3 和 代码 清单 5-4。 


代码 清单 5-3 ”第 5 章 \ 程 序 \ 程 序 5-1\kernel\head.S 


setup_TSS64: 


1 


ImPOVGC Srax, 80 (Srdi) //tss segment offset 
shrqa S32 Srdx 
movga Srdx, 88 (Srdi) //tss+l segment offset 
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P34 mo S0 交 505 Sax 
bh 下 所 将 Sax 
lretqa 


代码 清单 5-4 ”第 5 章 \ 程 序 \ 程 序 5-1\kernel\main.c 
void Start_Kernel (void) 


这 两 部 分 程序 分 别 调整 了 TSS 段 描述 符 在 GDT 中 的 偏 移 值 和 TSS 段 选择 子 的 值 。 既 然 已 经 实现 系 
统 调用 返回 模块 ret_system_cal1， 那么 就 应 该 修改 由 ao_fork 困 数 创建 的 新 进程 的 返回 地 址 ， 即 
从 原来 的 ret_from_intr 模 块 改 为 ret_system_cal1 模 块 。 这 两 个 模块 的 区 别 在 于 返回 时 使 用 的 汇 
编 指令 不 同 ，ret_from_intr 模 块 使 用 汇编 代码 jretq，ret_system_call 模 块 使 用 汇编 代码 
sysexit。 作 为 一 个 系统 调用 的 处 理 也 数 ， 函 数 do_fork 应 该 使 用 ret_system_call 模 块 ， 详 见 代 
码 清单 5-5。 


代码 清单 5-5 ”第 5 章 \ 程 序 \ 程 序 5-1\kernel\task.c 


unsigned long do_fork(struct pt_regs * regs, unsigned long clone flags, unsigned long 


stack_start, unsigned long stack_ size) 


if(!(tsk->flags & PF_KTHREAD)) 
thd->rip = regs->rip = (unsigned long)ret_ system call; 


系统 数据 结构 准备 就 绪 后 ， 接 下 来 将 为 IJA32 SYSENTER_CS 寄 存 器 设置 段 选 择 子 。 代 码 清单 5-6 
将 64 位 的 0 特权 级 代码 段 选 择 子 设置 到 IA32 SYSENTER_CS 寄 存 器 中 。 


代码 清单 5-6 ”第 5 章 \ 程 序 \ 程 序 5-1\kernel\task.c 
void task_ init() 


由 于 IA32_ SYSENTER_CS 寄 存 器 位 于 MSR 寄 存 器 组 的 0x174 地 址 处 ,所 以 处 理 器 只 能 借助 WRMSR 
汇编 指令 才能 向 MSR 寄 存 器 组 写 人 数据 。 此 处 的 wzmsr 函 数 采 用 内 舱 汇 编 语句 的 方式 将 WRMSR 汇 编 指 
令 封 装 在 体内 ， 从 而 简化 了 MSR 寄 存 器 组 的 操作 过 程 ， 代 码 清单 5-7 是 wzmszr 函 数 的 程序 实现 。 
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代码 清单 5-7 第 5 章 \ 程 序 \ 程 序 5-1\kernel\lib.h 


inline void wrmsr (unsigned long address,unsigned long value) 


{ 


} 


关于 WRMSR 指 令 的 用 法 已 在 3.2.4 节 讲解 过 ， 这 里 就 不 再 


asm _ _ volatile ("wrmsr 


c"(address):"memory"); 


后 的 程序 修改 工作 已 经 结束 ， 但 为 了 通过 sys 


能 实现 内 核 层 向 应 用 层 的 跳 转 。 详 旨 


NE 


EXIT 指 令 


"dq" (value >> 32)，"a" (value & Oxffffffff), 


过 多 讲解 。 至 此 ， 汇 编 指令 SYSsEXIT 引 入 


返回 3 特权 级 ， 还 必须 完善 in 让 内 核 线程 ， 才 


代码 清单 5-8 ”第 5 章 \ 程 序 \ 程 序 5-1\kernel\task.c 


unsigned long init (unsigned long arg) 


{ 


} 


目前 ， 系 统 还 没有 应 用 


struct pt_regs *regs; 


Color_printk (RED,BLACK," 


current->thread->rip 
current->thread->rsp 


pt_regs); 
regs = (struct pt_regs 
asm _ __volatile 
return 1; 


AR 


功能 ， 使 其 转变 为 应 用 程序 。 


执行 sxecve 系 统 调 用 API ， 
ER/SYSEXIT 指 令 无 法 像 中 断 指 
统 调用 API 处 理 函 数 的 方法 来 实现 。 在 此 可 以 参考 switch_to 辑 数 的 设计 思 


SYSENTI 


接 执行 系 


系统 调用 API 的 处 理 函 


调用 函数 ao_execve。 


首先 确定 函数 init 的 函数 返回 
内 能 汇编 语句 的 方法 ， 更 


程序 请 参见 代码 清 利 


单 5-8 所 示 。 


init task is running,arg:%#018lx\n",arg); 


(unsigned long)ret_system call; 
(unsigned long)current + STACK_SIZE - sizeof (struct 


*)current->thread->rsp; 


( "movg 


"Dusha %2 


Sy 


$$%rsp YINtE™ 
NDINE" 


"jmp do_execve \n\t" 


:DD" (regs) pn 


数 ao_execve， 即 借助 PUSH 指 


地 址 和 栈 指针 ， 


hrea 


程序 ， 此 时 的 init 依 然 是 个 内 核 线程 。 


d->rip) :"memory"); 


"(current->thread->rsp),"m" (current->t 


那么 下 面 就 来 扩充 init 进 程 的 


可 使 init 内 核 线 程 执 行 新 的 程序 ， 进 而 转变 为 应 用 程序 。 但 由 于 
令 那 样 ， 可 在 内 核 层 执行 系统 调用 API， 所 以 我 们 只 能 通过 直 
， 调 用 execve 


令 将 程序 的 返回 地 址 压 人 栈 中 ， 并 采用 JMP 指 令 


并 取得 进程 的 struct pt_regs 结 构 体 。 接 着 采用 
新 进程 的 内 核 层 栈 指针 ， 同 时 将 调用 do_execve 函 数 后 的 返回 地 址 (模块 


ret_system_call ) 压 入 栈 中 。 最 后 ,通过 JMP 汇 编 指令 
层 程序 ) 准备 执行 环境 ， 并 将 struct pt_regs 儿 
do_execve 函 数 及 相关 程序 实现 如 代码 清单 5-9 所 示 。 


跳 转 至 ao_execve 国 数 为 新 程序 ( 目标 应 月 


吉 构 体 的 首 地 址 作为 参数 传递 给 do_execve 函 数 。 
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代码 清单 5-9 ”第 5 章 \ 程 序 \ 程 序 5-1\kernel\task.c 


void user_level_function() 

{ 
Color_printk (RED,BLACK, "user_level_ function task is running\n"); 
while(1); 

} 


unsigned long do_execve(struct pt_regs * regs) 


{ 


regs->rdx = 0x800000; //RIP 
regs->rcx = 0xa00000; //RSP 
regs->rax = 1; 
regs->ds = 0; 
regs->es = 0; 


Color_printk (RED,BLACK, "do_execve task is running\n"); 
memcpy (user_level_function, (void *)0x800000,1024); 


return 0; 


} 
在 do_execve 函 数 中 ， 通 过 设置 struct pt_regs 结 构 体 的 成 员 变 量 来 搭建 应 用 程序 的 执行 环 
境 。 当 do_execve 函 数 返 回 时 ， 人 处理 器 会 跳 转 至 ret_system_call 模 块 处 执行 ， 进 而 将 struct 
pt_regs 结 构 体 的 各 个 成 员 变 量 还 原 到 对 应 的 寄存 器 中 。 气 数 中 的 代码 regs->rdx = 0x800000; 保 
存 着 应 用 层 程序 的 入 口 地 址 ， 而 regs->rcx = 0xa00000; 保 存 着 应 用 程序 的 应 用 层 栈 顶 地 址 ， 选 用 
这 两 个 寄存 器 ( RDX 和 RCX ) 是 与 SYSEXIT 指 令 的 需求 相 呼 应 的 。 此 处 的 memcpy 函 数 负责 将 应 用 层 
的 执行 函数 user_level_function 复 制 到 线性 地 址 0x800000 处 ， 当 处 理 器 切换 到 应 用 层 后 , 应 用 程 
序 将 从 应 用 层 的 线性 地 址 0x800000 处 开始 执行 。 对 于 线性 地 址 ox800000 的 选择 ， 这 里 没有 特别 的 选 
择 依据 ， 只 要 是 未 使 用 的 内 存 空间 皆 可 。 而 选择 线性 地 址 0oxa00000 作 为 应 用 程序 的 栈 顶 地 址 ， 则 是 
为 了 保证 它 与 线性 地 址 0x800000 同 在 一 个 物理 页 内 。 
在 运行 前 ,不 要 忘记 注释 掉 init_memory 图 数 对 页 表 映 射 的 清理 代码 。 和 否则， 一 旦 访问 线性 地 址 
0x800000 便 会 触发 缺 页 异常 。 具 体 程序 实现 请 参见 代码 清单 5-10。 


代码 清单 5-10 ”第 5 章 \ 程 序 \ 程 序 5-1\kernel\memory.c 


void init_memory () 


// for(i = 0;i < 10;i++) 
// *(Phy_To_Virt (Global_CR3) + i) = 0UL; 


现在 ， 让 我 们 来 看 看 它 的 运行 效果 ， 如 图 5-2 所 示 。 


A 
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Bochs x86-64 emulator, http://bochs.sourceforge.net/ 


到 5$-2 ”应 用 层 跳 转 程序 的 运行 效果 图 1 
天 啊 ! 这 段 程 序 并 未 如 我 们 预期 的 效果 运行 ， 根 据 日 志 信 息 可 知 ， 处 理 器 捕获 到 了 页 错误 异常 。 
虽然 我 们 有 些 茫然 , 但 是 异常 处 理 功 能 终于 有 用 武之 地 了 ， 想 想 也 是 不 错 的 。 Se 志 信 息 的 分 析 ， 
最 终 得 知 错误 发 生 在 应 用 层 的 线性 地 址 0x800000 处 ， 当 读 取 该 地 址 时 触发 异常 。 仔 细 想 想 ， 从 线性 
地 址 0x800000 处 开始 是 代码 程序 ， 读 取 该 地 址 的 数据 就 意味 着 执 人 0 序 ， 而 且 运 行 结 
没有 显示 出 这 个 物理 页 面 不 存在 ， 则 说 明 现 在 是 有 映射 关系 存在 的 。 最 后 ， 经 过 对 页 表 项 属性 标志 位 
的 仔细 分 析 ， 发 现 其 页 属性 限制 物理 页 只 允许 内 核 程序 访问 ， 而 不 允许 应 用 程序 访问 。 因 此 ， 需 要 修 
改 本 系统 的 页 表 项 属性 ， 进 一 步 为 应 用 层 放宽 执行 限制 。 具 体 的 修改 内 容 请 看 下 面 的 代码 清单 5-11。 
代码 清单 5-11 第 5 章 \ 程 序 \ 程 序 5-1\kernel\head.S 
/三 三 三 三 三 = init page 
.align 8 
Oro 0x1000 
__PMLT4E: 
.Guad 0x102007 
于 让 二 2 
.Guad 0x102007 
:于 二 二 25558s0 
-Org 0x2000 
__PDPTE: 
.Guad 0x103007 A OXLOI00d <* 
“Bal S11y8.0 
Grg 0x3000 
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PDE.: 


.Guad 
.Guad 
.Guad 
.Guad 
.quad 
.quad 
.Guad 
.Guad 
.Guad 
.Guad 
.Guad 
.Guad 
.Guad 
“得 工 业 由 


怀 着 志江 的 心情 ， 让 我 们 再 


tps: 87,5274 


0x000087 
0x200087 
0x400087 
0x600087 
0x800087 
0xe00000 
0xe02000 
0xe04000 
0xe06000 
0xe08000 
0xe0a000 
0xe0c000 
0xe0e000 
4997870 


/* 0x800083 *7 
87 /000000RY 
87 
87 
87 
87 
87 
87 
8 


/*ORKLOQOOOOORL 


me 


次 运行 这 上段 程序 ， 执 行 效果 如 图 5-3 所 示 。 


Bochs x86-64 emulator, http://bochs.sourceforge.net/ 


图 5-3 


应 用 层 跳 转 程序 的 运行 效果 图 2 


这 一 次 的 执行 效果 已 经 达到 预期 。 接 着 再 看 看 Bochs 虚 拟 机 的 终端 日 志 信息 。 


<bochs:2> qa 
00320468000i 
00320468000i 
00320468000i 
00320468000i 
00320468000i 
00320468000i 
00320468000i 
00320468000i 
00320468000i 


CPUO 
CPUO 
CPUO 
CPUO 
CPUO 
CPUO 
CPUO 
CPUO 


dbg: Quit 

CPU is in long mode 
CS.mode = 64 bit 
SS.mode = 64 bit 
EFER = 0x00000500 
| RAX=0000000000000024 
| RCX=000000000000001q 
| RSP=00000000009ffff8 
| RSI=00000000000005a0 


(act 


ive) 


RBX=f£ffff80000010ac0a 
RDX=0000000000000004 
RBP=00000000009ffff8 
RDI=ffff800000a00000 


180 第 5 章 应 用 层 

003204680001[CPUO R8=0000000000ff0000 R9=0000000000000000 

003204680001[CPUO R10=0000000000000000 R11=0000000000000000 

00320468000i [CPUO R12=0000000000000000 R13=0000000000000000 

00320468000i [CPUO R14=0000000000000000 R15=0000000000000000 

00320468000i[CPUO IOPL=0 id vip vif ac vm rf nt of df IF tf sf zf af pf cf 

00320468000i [CPUO SEG sltr(index|til|rpl) base limit G D 

00320468000i [CPUO Cor002B( "00031 "0 3 “00000000. , 主 下 二 下 下 入 下 二 29 

00320468000i [CPUO DS:0000( 0000| 01 0) 00000000 00000000 0 0 

00320468000i [CPUO SS:0033( 0006| 0| 3) 00000000 ffffffff 1 1 

00320468000i [CPUO ES:0000( 0000| 0| 0) 00000000 00000000 0 0 

00320468000i [CPUO FS:0000( 0000| 0| 0) 00000000 00000000 0 0 

00320468000i [CPUO GS:0000( 0000| 0| 0) 00000000 00000000 0 0 

00320468000i [CPUO MSR_FS_BASE:0000000000000000 

00320468000i [CPUO MSR_GS_BASE:0000000000000000 

00320468000i [CPUO RIP=0000000000800029 (0000000000800029) 

00320468000i [CPUO CRO=0xe0000011 CR2=0x0000000000000000 

00320468000i [CPU0O CR3=0x00101000 CR4=0x00000020 

(0).[320468000] [0x000000800029] 002b:0000000000800029 (unk. ctxt): jmp .-2 

(0x0000000000800029) ; ebfe 

00320468000i [CMOS Last time is 1493088378 (Tue Apr 25 10:46:18 2017) 

00320468000i [XGUI Exit 

00320468000i[SIM quit_sim called with exit code 0 

在 日 志 信息 中 ，CS 寄 存 器 和 SS 寄存 器 的 RPL 值 是 3， 这 说 明 处 理 器 当前 已 经 运行 在 3 特权 级 的 应 用 
层 中 。 此 刻 的 RIP 寄 存 器 指向 线性 地 址 0ox0000000000800029 处 ， 保 存 的 指令 是 jmpb .-2 (机 器 码 : 


ebfe )， 这 正 是 代码 while (1) ;的 反 汇 编 


巴 人 
间 令 。 


1 此 看 来 ， 我 们 从 内 核 层 跳 转 至 应 用 层 的 


现 ， 下 一 节 将 会 在 此 基础 上 实现 系统 调用 API， 从 而 完成 内 核 层 与 应 用 层 间 的 双向 切换 。 


5.2 实现 系统 调用 API 


系统 调用 API 作 为 应 用 层 与 内 核 层 间 的 重要 通信 手段 已 被 使 用 到 各 种 应 


层 间 的 通信 手段 不 只 系统 调 月 


月 API 一 种 ， 我 们 还 可 采 


链接 ， 不 过 最 广泛 使 用 的 通信 方式 依然 是 系统 调用 API。 


本 节 将 会 继续 补充 完 系统 调 
跳 转 。 下 面 依然 从 syxsENTER 汇 编 指令 的 功能 描述 
SYSENTER 指 令 是 一 个 快速 进入 0 特权 级 的 指令 。 在 执行 SYSENTER 指 令 之 前 ， 处 理 器 必须 为 其 
供 0 特 权 级 的 衔接 程序 以 及 0 特权 级 的 栈 空间 ， 这 些 数据 将 保存 在 MSR 寄 存 器 和 通 


寺中 断 、 地 ] 


0 


jAPI。 


场合 ， 但 应 
址 重 映 射 等 方式 在 这 两 


用 寄存 右 中 。 


目标 已 经 实 


j 层 与 内 核 
民间 建立 通信 


jAPI 的 主体 框架 ， 即 通过 sYsENTER 汇 编 指令 实现 应 用 层 到 内 核 层 的 
始 逐 步 实 现 系统 调 


提 


口 IA32_SYSENTER_CS ( MSR 寄存 器 组 地 址 174h 处 )。 这 个 MSR 寄 存 器 的 低 16 位 装载 的 是 0 特 
权 级 的 代码 段 选择 子 ， 该 值 也 用 于 索引 0 特权 级 的 栈 段 选择 子 ( IA32 SYSENTER_CS 


[15:0]+8 )， 


因此 其 值 不 能 为 NULL。 
口 IA32_SYSENTER_ESP ( MSR 寄 存 器 组 地 址 175h 处 )。 这 个 MSR 寄 存 器 是 


的 值 将 会 被 载 人 到 


RSP 寄 存 器 中 , 该 值 必须 是 Canonical 型 地 址 。 在 保护 模式 下 ,只 有 寄存 器 的 低 32 位 被 载 人 到 RSP 


寄存 器 中 。 


口 IA32_SYSENTER_EIP( MSR 寄 存 器 组 地 址 176h 处 ) 这 个 MSR 寄 存 器 里 的 值 将 会 被 载 人 到 RIP 


寄存 器 中 ， 
存 器 中 。 


该 值 必须 是 Canonical 型 地 址 。 在 保护 模式 下 ， 只 有 寄存 器 的 低 32 位 被 载 人 到 RIP 寄 
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在 执行 SYS 


ENT 


选择 子 到 CS 和 SS 寄存 器 。 


确 性 。 

SYSENTER/SYS 
保存 用 户 代 码 的 状态 信 
SYSENTER/SYSEXIT 
口 SYS 
的 。 
口 应 | 


ENTER/SYS 
只 有 这 样 才 
程序 如 


在 执行 


ER 指 
] 返 下 


， 相 信 应 


由 于 SYSENT 
么 在 现 有 系统 调 
system call 
代码 清单 5-12 


ENTRY (system_ call 


EXIT 指 


/CA 


EXIT 指 
能 使 处 于 


Sh 4 


ER 指令 的 过 程 中 ， 处 至 


RSEE 


NTER 指 令 与 SYS 


令 与 
自 


全 


CALL/R 


) 
8, 


Subd SOX3 
Cd> 

Dusha Srax 
movg Ses 
pushqa Sra 
movd $ds, 
pushqa Srax 
XOorgd Srax 
pushq Srbp; 
pushqa Srdi 
pushqa Srsi 
pushqa Srdx 
pushqa SC 
pushqa Srbx 
pushq Sr8; 
pushqa 3 
pushqa Sr10 
pushqa Sr11 
pushqa S$r12 
pushqa Sl 
pushqa Sr14 
pushqa Sr15 
mOVG SOXx1 
ImOVG Srdx 
ImOVG Srdx 
movd Srsp 
Gallyg 


ENTE 
寄存 器 值 )， 并 在 执行 SYs 
令 和 SYSsEXIT 指 令 是 
模块 ret_system_call 的 基础 上 ， 
应 该 不 再 是 什么 难事 。 代 码 清单 5-12 是 system_call 模 块 的 详细 程序 实现 。 


第 5 章 \ 程 序 \ 程 序 5-2\kernel\entry.S 


EXIT 指 令 


BT 指令 的 不 同 之 处 在 于 ， 执 行 SYSs 
( 如 RIP 和 RSP 寄 存 器 值 )， 而 且 
指令 还 必须 遵循 如 下 的 规则 。 

令 使 用 的 段 描 述 符 皆 位 于 同一 描述 符 表 内 ， 并 |] 
器 根据 SYSENTER_CS_MSR 寄 存 器 值 索 引 到 段 选择 子 。 
ER 指令 进入 内 核 层 时 ， 必 须 保 存 程序 的 运行 


ENTI 


两 者 均 不 支 


器 会 根据 IA32 SYSENTER_CS 寄 存 器 的 值 加 载 相应 的 段 
令 都 必须 由 操作 系统 负责 确保 段 描 述 符 的 正 


PR 指令 时 ， 处 理 器 不 会 
持 内 存 参 数 方式 。 同 时 ， 


日 各 个 段 描述 符 是 相 邻 


EXIT 指 令 


Srsp 


Srax; 


Srax; 


Srax; 


Srdx; 
$ds; 
Ses; 
Srdi 


system call_function 


返回 应 用 层 时 恢复 程序 的 运行 环境 。 
行 环境 方面 的 要 求 大 
用 接口 处 理 模块 


配对 的 ， 因 


a 执 
写 与 之 相对 应 


的 系统 调 


PAA LA Yi 


环境 ( 尤 


其 是 RIP 和 RSP 


体 上 一 致 。 那 


这 个 system_cal1 模 块 是 系统 调用 API 的 接口 模块 ， 已 ret- system_call 模 块 的 执行 过 程 相 


反 。 当 应 用 程序 执行 SYSs 


ENTI 


ER 指令 


进入 内 核 层 时 ， 便 会 通 


过 system_cal1 模 块 保存 应 用 程序 的 执行 
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现场 ， 随 后 使 用 cALL 指 令 调用 system_call_function 函 数 ， 进 而 执行 与 之 相 匹 配 的 处 理 程序 。 在 
调用 system_call_function 隐 数 时 ，system_call 模 块 会 将 当前 栈 指 针 作 为 参数 传递 给 
system_call_function 函 数 (代码 movq %srsp，%rdi )， 此 时 的 栈 指针 正 指向 struct pt_regs 
结构 体 的 首 地 址 。 代 码 清单 5-13 和 代码 清单 5-14 是 system_cal1l1_function 函 数 的 程序 实现 以 及 相关 


结构 体 定义 。 


代码 清单 5-13 ”第 5 章 \ 程 序 \ 程 序 5-2\kernel\task.c 


unsigned long system call_ function(struct pt_regs * regs) 


{ 


return system call_ tablel[regs->rax] (regs);} 


} 


代码 清单 5-14 第 5 章 \ 程 序 \ 程 序 5-2\kernel\task.h 


#define MAX_SYSTEM_ CALL_ NR 128 


typedef unsigned long (* system call 七 ) (struct pt_regs * regs); 


unsigned long no_system call(struct pt_regs * regs) 


{ 


Color_printk (RED,BLACK, "no_system call is calling,NR:%#04x\n",regs->rax); 


return -1; 


} 


system call_t system call_ table[MAX_SYSTEM CALL NR] = 
{ 

[0 ... MAX_SYSTEM_ CALL NR-1] = no_system call 
人 


函数 syvstem_cal1_function 的 参数 regs 记 录 着 进程 的 执行 环境 其 中 的 成 员 变 量 rax 保 存 着 系 
统 调 用 API 的 向 量 号 ， 这 里 暂时 定义 128 个 系统 调用 。 数 组 svstem_cal1_table 用 于 保存 每 个 系统 调 
用 的 处 理 函 数 ， 由 于 目前 尚未 实现 具体 的 系统 调用 功能 ， 因 此 特 为 每 个 系统 调用 配置 默认 处 理 函 数 


no_system call。 


与 此 同时 ， 还 要 为 SYSENTER 汇 编 指令 指定 内 核 层 栈 指 针 以 及 系统 调用 在 内 核 层 的 入 口 地 址 
( system_call 模 块 的 起 始 地 址 )。 函 数 task_init 将 这 两 个 值 分 别 写 人 到 MSR 寄 存 器 组 的 175h 和 


176h 地 址 处 ， 具 体 实现 请 参见 代码 清单 5-15 的 内 容 。 
代码 清单 5-15 ”第 5 章 \ 程 序 \ 程 序 5-2\kernel\task.c 


void task_init() 


wrmsr (0x174,KERNEL CS); 
wrmsr (0x175,current->thread->rsp0); 
wrmsr (0x176, (unsigned long)system call); 


这 部 分 内 容 已 经 在 SYSENTER/SYSEXIT 指 令 中 描述 得 非常 细致 ， 此 处 就 不 做 过 多 讲解 ， 


行 对 照 学 习 


请 读者 自 
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现在 ， 系 统 调用 API 的 主体 框架 已 基本 实现 ， 接 下 来 将 编写 程序 执行 系统 调用 API。 在 编写 调用 程 
序 时 ， 读 者 应 该 明白 SYSENTER/SYSEXIT 指 令 并 不 具备 保存 程序 执行 环境 的 功能 ， 而 SYSEXIT 指 令 的 
执行 却 必须 要 向 RCX 与 RDX 寄 存 器 提供 应 用 程序 的 返回 地 址 和 栈 顶 地 址 。 故 此 ， 在 执行 SYSsENTER 指 
令 前 ， 我 们 特 将 应 用 程序 的 返回 地 址 和 栈 顶 地 址 保存 在 这 两 个 寄存 器 内 ， 从 而 就 有 了 代码 清单 5-16 所 
示 的 程序 。 


代码 清单 5-16 第 5 章 \ 程 序 \ 程 序 5-2\kernel\task.c 


void user_level_ function() 


{ 


long ret = 0; 
Color_printk (RED,BLACK, "user_level function task is running\n"); 


_asm _ _ Volatile _ ( "Jeag sysexit_return address (%$%rip), 
$$Srdx NIN 
"movd 区 gTSDP， SSIrCX NSNEY 
"sysenter \n\t" 
"sysexit_return address: NNNEY 
"ea (ret)ya" 0" (lL) memory™)? 


Color_printk (RED,BLACK, "user_level_ function task called 
sysenter,ret:%ld\n",ret); 


while(1); 

} 
函数 user_level_function 的 内 山 汇 编 代码 是 系统 调用 在 应 用 层 部 分 的 核心 程序 ， 它 通过 汇编 
指令 LEA 取 得 标识 符 sysexit_return_adqqress 的 有 效 地 址 ， 并 将 有 效 地 址 保存 到 RDX 寄 存 器 。 而 
RCX 寄 存 器 保存 着 应 用 层 的 当前 栈 指针 ，RAX 寄 存 器 是 系统 调用 API 的 向 量 号 。 当 系统 调用 处 理 函 数 
执行 结束 ， 系 统 调用 处 理 函 数 便 借 助 RAX 寄 存 器 把 执行 结果 返回 到 应 用 层 并 保存 在 变量 *et 中 。 图 5$-4 
是 整个 系统 调用 的 执行 效果 。 


Bochs x86-64 emulator, http://bochs.sourceforge.net/ 


IPS: 90.2e6H Tn hm kre Ba eet 1 1 1 1 1 


图 5-4 ”系统 调用 API 的 执行 效果 图 1 
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从 图 5-4 可 知 ， 系 统 调用 的 第 0x0f 号 向 量 执行 了 函数 no_system_call， 此 值 正 是 在 执行 系统 调 


用 时 由 user_level_function 隐 数 传人 到 RAX 寄 存 器 的 数值 15。 当 默认 系统 调用 人 处理 也 数 


no_system_call 执 行 结束 后 ， 默认 系统 调 月 


存 器 携带 ， 最 终 被 传递 到 应 用 程序 的 ret 变 量 中 。 


经 过 此 番 测 试 后， 本 以 为 系统 调用 功能 已 经 大 功 告 成 ， 却 发 现 处 到 


处理 函 数 将 向 应 用 层 返 回 数值 -1。 返 


回 值 同样 由 RAX 寄 


LE 帮 已 经 无 法 接收 来 自 键盘 的 中 


断 请 求 信号 。 回 想 一 下 ， 我 们 不 曾 有 过 禁止 中 断 请 求 的 操作 ， 但 在 诊断 过 程 中 却 发 现 Bochs 虚 拟 机 已 


复位 标志 寄存 器 EFLAGS 的 IF 


' 断 使 能 标志 位 ， 详 细 信 息 如 下 : 


<bochs:2> r 

CPUO: 

rax: 00000000_00000030 rcx 
rdx: 00000000_00000004 rpx 
rsp: 00000000_009fffe8 rbp 
rsi: 00000000_000005a0 rqdi 
r8 : 00000000_00ff0000 r9 
r10: 00000000_00000000 r11 
r12: 00000000_00000000 r13 
r14: 00000000_00000000 ri15 
rip: 00000000_00800077 
eflags 0x00000002: 

在 5.1 节 中 ， 中 断 标志 位 仍 处 于 未 


细 查 阅 Intel 官 方 白皮书 对 SYSENTI 
指令 将 使 RFLAGS. 正 标志 位 复位 。 因 此 ， 当 处 到 


志 位 )。 至 于 中 汤 人 处理 
置 位 正 标志 位 ， 这 也 不 


: 00000000_0000001f£ 
: ffff8000_0010agd2d 
: 00000000_009ff£fff8 
i: ffff8000_00a00000 
: 00000000_00000000 
: 00000000_00000000 
: 00000000_00000000 
: 00000000_00000000 


屏蔽 状态 ， 想 必 是 SYSE 


令 插 入 到 system_call 模 块 里 ， 如 代码 清单 5-17 所 示 。 


代码 清单 5 
ENTRY 
S 


这 上 段 程序 将 STI 指 令 插 入 到 system_cal1 模 块 的 人 口 处 ， 即 当 SYSENTI 


-17 ”第 5 章 \ 程 序 \ 程 序 5-2\kernel\entry.S 


(system_ call) 
七 主 


下 耳 
宁 起 


正常 接收 中 断 请 求 信号 。 


FE 它 ， 如 图 5-5 所 示 。 
又 显示 出 了 键盘 按键 的 日 志 信 


ER 指令 执行 完毕 后 立即 使 


id vip vif ac: vit Tf nt TOPL=0 GE df Tif.tf sf vf-af Hf GE 

ER 汇编 指令 复位 了 IF 中 断 标志 位 。 仔 
ER 指令 操作 过 程 的 描述 后 ， 发 现 操作 过 程 已 明确 指出 执行 SYSENTER 
器 进入 内 核 层 后 ， 我 们 必须 手动 使 能 中 断 〈 置 位 正 标 
程序 ， 它 早已 具备 保存 和 还 原 程序 执行 环境 的 能 力 ， 即 使 在 system_cal1 模 块 中 
会 对 程序 的 继续 运行 带 来 影响 。 考 虑 到 以 上 因素 后 ， 决 定 将 使 能 中 断 的 STI 指 


! 基 ， 以 允许 处 理 器 再 次 接收 中 断 请 求 信号 。 相 信 在 加 入 这 条 汇编 指令 后 ， 程 序 可 以 达到 预期 的 运 
效果 。 现 在 就 让 我 们 来 验 记 


图 5-5 的 执行 效 表 息 , 这 说 明 当 系统 调用 执行 结束 后 , 处 理 带 仍 能 够 
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PS: 395. 机 | hr lors a 


图 5-5 ”系统 调用 API 的 运行 效果 图 2 


此 刻 ， 系 统 调用 API 的 主体 框架 已 经 实现 。 现 在 可 为 操作 系统 实现 系统 调用 API， 这 只 需 往 内 核 层 
的 系统 调用 向 量 表 中 添加 处 理 函 数 ， 并 在 应 用 层 实现 与 之 对 应 的 系统 调用 API 即 可 。 
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经 过 前 两 节 的 学 习 ,， 相信 读者 已 经 掌握 了 系统 调用 API 的 整体 框架 。 但 没有 实现 系统 调用 API， 总 
会 感觉 有 点 遗憾 。 那 么 本 节 就 来 实现 一 个 字符 串 打 印 功能 的 系统 调用 API。 
捉 打印 功能 的 系统 调用 接口 是 基于 color_printk 函 数 实现 的 ， 具体 程序 实现 请 参见 代码 清 


本 


4 
部 


代码 清单 5-18 ”第 5 章 \ 程 序 \ 程 序 5-3\kernel\task.h 


unsigned long sys_printf(struct pt_regs * regs) 


{ 


Color_printk (BLACK,WHITE, (char *)regs->rdi); 
return 1; 


} 


system call_t system call table[MAX_ SYSTEM CALL _ NR] = 


[0] = no_system call, 
[1] = sys_printf, 
[2 ... MAX_SYSTEM CALL NR-1] = no_system call 
}s 
这 段 程 序 创 建 了 一 个 系统 调用 处 理 函 数 sys_printf， 系 统 调 用 向 量 号 是 1， 其 内 部 封装 了 隐 数 
AAA 


color_printk,， 并 借助 RDI 寄 存 器 (参数 regs 的 rdi 成 员 变 量 ) 向 color_printk 传 递 待 打印 的 字符 
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串 。 为 了 向 RDI 寄 存 器 传递 待 打 印 的 字符 串 ， 应 用 层 的 系统 调用 接口 必须 进行 修改 ， 修 改 后 的 
user_level_function 函 数 如 代码 清单 5-19 所 示 。 


代码 清单 5-19 ”第 5 章 \ 程 序 \ 程 序 5-3\kernel\task.c 


void user_level_ function() 


{ 
long ret = 0; 
// color_printk (RED,BLACK, "user_level_function task is running\n"); 
char string[]="Hello World!\n"; 
_asm _ _ Volatile _ ( "leag sysexit_return address (%$%rip), S$%Srdx 
\n\t" 
"moOVvG $$Srsp, SESIrcx NNED 
"sysenter Nm 
"sysexit_return address: NENEY 
:"=a" (ret):"0"(1),"D"(string):"memory"); 
// color_printk(RED, BLACK, "user_level_function task called 
sysenter,ret:%ld\n",ret); 
while(1); 
} 


在 user_level_function 函 数 的 起 始 处 ， 字 符 串 变量 string 首 先 定 义 ， 它 记录 着 竺 显示 的 字 
符 串 (Hello World! )。 然 后 ， 修 改 系统 调用 的 和 人口 程序 ， 将 字符 串 变 量 string 的 起 始 地 址 保存 到 
rdi 寄 存 需 中 。 经 过 这 么 一 番 修 改 ， 一 个 字符 串 打印 功能 的 系统 调用 API 就 实现 了 ， 程 序 的 执行 效果 
如 图 5-6 所 示 。 


Bochs x86-64 emulator, http#//bochs.sourceforge.net/ 


th 0x00000000000003fe 


00000000000001 
Of{{ff800000200000 


0000000titte 


xD0000000009ff 
edo 00d {ff 
ye DO 


0x000000000080004: ye D0000000000fff 


图 5-6 系统 调用 人 处理 函数 执行 效果 图 
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在 图 5-6 中 ， 字 符 串 Hello World! 打 印 出 来 ， 白 背景 色 、 黑 色 字 体 使 这 条 日 志 信息 更 加 明显 。 伴 
随 着 系统 调用 API 的 执行 ， 此 图 还 显示 了 一 些 键盘 扫描 码 信息 。 看 来 ， 系 统 调用 与 中 断 请 求 均 可 正常 
工作 。 

至 此 ， 初 级 篇 的 内 容 已 经 全 部 讲解 完毕 ， 其 中 包括 操作 系统 的 引导 启动 、 内 核 层 和 应 用 层 三 部 分 
内 容 。 尽 管 这 个 操作 系统 雏形 仍 无 法 完成 任何 工作 ， 但 它 实 现 了 操作 系统 各 个 环节 的 关键 技术 点 。 我 
相信 读者 对 操作 系统 的 理解 ， 已 经 从 感性 认识 上 升 到 了 理性 认识 ， 这 是 一 个 从 理论 到 实践 的 里 程 碑 。 

接 下 来 ， 将 进入 到 高 级 篇 的 学 习 。 高 级 篇 将 会 对 初级 篇 遗漏 的 理论 性 知识 进行 补充 和 完善 ， 并 将 
我 们 的 操作 系统 迁移 到 物理 平台 ， 使 其 摆脱 Bochs 虚 拟 机 的 困扰 。 不 仅 如 此 ， 高 级 篇 还 将 采用 更 先进 
的 硬件 设备 ， 使 操作 系统 得 到 进一步 升级 。 相 信 这 又 是 一 次 精彩 的 冒险 ! 


全 一 一 
第 三 部 分 


高 级 篇 


高 级 篇 将 会 补充 讲解 初级 篇 跳 过 的 复杂 内 容 ， 并 在 此 基础 上 进行 诸多 功能 扩 
原理 性 描述 ， 相 关 章 节 包 括 : 

口 第 6 章 处 理 器 体系 结构 ; 

口 第 7 章 完善 BootLoader 功能 ; 

口 第 8 章 内 核 主 程序 ; 

口 第 9 章 内 存 管理 ; 
口 
口 
口 
口 
口 


= 


展 和 


第 10 章 高 级 中 断 处 理 单元 ; 
第 11 章 设 备 驱动 程序 ; 
第 12 章 进程 管理 ; 
第 13 章 文件 系统 ; 
第 14 章 系统 调用 API 库 ; 
口 第 15 章 Shell 命令 解析 器 及 命令 ; 
口 第 16 章 一 个 彩蛋 。 

其 中 ,第 6 章 是 对 处 理 器 体系 结构 的 探索 ， 主 要 针对 Intel 处 理 器 在 各 种 运 
行 模式 下 的 寻 址 方式 进行 讲解 ; 第 7 章 补 充 了 初级 篇 引导 启动 部 分 遗漏 的 内 容 ， 
并 将 BootLoader 程序 移植 到 物理 平台 ; 第 8~14 章 属于 内 核 层 的 内 容 ， 这 部 分 内 
容 深化 并 升级 了 初级 篇 的 系统 内 核 ， 使 其 功能 更 加 丰富 、 健 壮 ; 第 15 章 属于 应 
j 层 的 内 容 ， 它 将 一 个 只 能 显示 Hello World ! 的 应 用 程序 ， 演 变 成 一 个 具备 交 
互 能 力 的 Shell 命令 解析 器 。 


第 6 章 


处 理 器 体系 结构 


本 章 主要 介绍 Intel 处 理 器 体系 结构 相关 知识 ， 并 结合 这 些 知 识 对 初级 篇 编写 的 程序 进行 补充 讲 
解 ， 从 而 使 读者 们 更 加 直观 地 学 习 这 部 分 内 容 。 限 于 篇 幅 ， 本 章 将 主要 讲解 Intel 处 理 器 的 基础 功能 、 
各 种 运行 模式 的 特点 、 各 个 地 址 空间 的 转换 过 程 及 方法 等 常用 知识 ， 而 像 高 级 中 断 控制 器 (APIC )、 
多 核 处 理 器 管理 等 知识 将 会 在 需要 时 另 作 补 充 。 通 过 这 一 章 的 学 习 ， 相 信 读 者 可 以 初步 揭 开 处 理 咒 体 
系 结构 的 神秘 面纱 。 


6.1 基础 功能 与 新 特性 


本 节 将 会 对 处 理 器 的 常用 寄存 器 和 各 运行 模式 的 特点 等 知识 予以 介绍 。 相 信 大 部 分 读者 对 Intel 处 
理 器 的 体系 结构 和 功能 并 不 陌生 ， 此 处 将 主要 针对 Intel Pentium 4 ( 属于 Intel P6 家 族 ) 及 后 续 处 理 器 
的 一 些 新 特性 以 及 重要 功能 进行 讲解。 


6.1.1 运行 模式 
目前 ，Intel 处 理 器 体系 结构 大 体 上 可 分 为 I A-32 体 系 结构 与 I[A-32e 体 系 结构 两 种 。32 位 处 理 器 采用 
IA-32 体 系 结构 ，64 位 处 理 器 采用 IA-32e 体 系 结构 。 在 这 两 种 体系 结构 中 包含 着 多 种 运行 模式 ， 较 为 常 
用 的 运行 模式 有 IA-32 体 系 结构 的 保护 模式 和 IA-32e 体 系 结构 的 64 位 模式 , 其 他 运行 模式 主要 用 于 模式 
切换 或 为 了 程序 的 兼容 性 。 下 面 就 来 看 看 这 两 种 体系 结构 支持 的 运行 模式 ， 其 中 不 乏 有 读者 期 盼 已 久 
的 64 位 运行 模式 。 
口 实 模式 (Real-Address Mode )。 它 为 处 理 絮 提供 Intel 8086 处 理 器 的 运行 环境 ， 并 追加 了 保护 
模式 和 系统 管理 模式 的 切换 扩展 。 
口 保护 模式 ( Protected Mode )。 它 是 32 位 处 理 器 的 主要 运行 模式 ， 为 软件 的 运行 提供 了 丰富 的 
功能 、 严 格 的 安全 性 检测 以 及 向 后 兼容 性 。 
口 系统 管理 模式 ( System Management Mode，SMM )。 它 是 32 位 处 理 器 的 标准 功能 ， 提 供 一 种 
对 操作 系统 透明 的 机 制 来 执行 电源 管理 和 OEM 的 特殊 功能 。 一 旦 切换 至 SMM 模 式 ， 处 理 器 将 
进入 一 个 隔离 的 地 址 空间 运行 。 
口 虚拟 8086 模 式 ( Virtual-8086 Mode )。 它 是 处 理 器 为 保护 模式 提供 的 一 种 准 运行 模式 ， 人 允许 处 
理 器 在 保护 模式 下 执行 8086 软 件 和 多 任务 环境 。 
口 IA-32e 模 式 (1IA-32e Mode )。 它 是 64 位 处 理 器 的 主要 运行 模式 ， 共 包含 两 种 子 模式 : 兼 
容 模式 和 64 位 模式 (64-bit Mode )。64 位 模式 为 处 理 器 提供 64 位 的 线性 地 址 空间 并 支持 超 
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过 64 GB 的 物理 地 址 寻 址 ， 而 兼容 模式 可 使 大 部 分 保护 模式 的 应 用 程序 无 修改 运行 于 64 位 
处 理 器 中 。 
由 此 可 见 ，IA-32e 体 系 结构 是 对 IA-32 体 系 结构 的 扩展 。 图 6-1 描 绘 了 IA-32e 体 系 结构 各 运行 模式 
间 的 切换 过 程 。 


SMI# 


Reset or RSM 


Reset or CR0.PE=1 
CR0.PE=0 
SMI# 
Reset 呆 护 模式 
保护 模式 3 RSM 
= NS SMI# 
可 2 
EFLAGS.VM=0 Be 64 位 模式 


虚拟 8086 模 式 


图 6-1 处理 器 运行 模式 转换 图 


从 图 6-1 中 可 知 ， 处 理 器 在 上 电 或 重启 后 首先 运行 实 模式 。CR0 控 制 寄 存 器 的 PE 标志 位 控制 着 处 理 
器 运行 在 实 模式 或 保护 模式 。EFLAGS 标 志 寄 存 器 的 VM 标 志 位 可 使 处 理 需 在 保护 模式 与 虚拟 8086 模 
式 间 切换 ， 切 换 过 程 往往 通过 任务 切换 或 中 断 / 异 常 返回 程序 实现 。 在 开启 分 页 机 制 的 保护 模式 下 ， 置 
位 IA32_EFER 寄 存 器 的 LME 标 志 位 (位 于 IA32_EFER 寄 存 器 的 第 8 位 ) 可 使 处 理 器 进入 IA-32e 模 式 。 
通过 IA32 EFER 寄 存 器 的 LMA 标 志 位 (位 于 IA32_EFER 寄 存 器 的 第 10 位 ) 可 以 判断 处 理 器 是 否 运行 在 
IA-32e 模 式 下 。 当 处理 器 运行 于 IA-32e 模 式 , 代码 段 描述 符 的 L 标 志 位 可 确定 处 理 器 运行 于 64 位 模式 还 
是 兼容 模式 。 不 论处 理 器 正 处 于 何 种 模式 ， 一旦 它 收 到 SMI 信 号 便 会 进入 SMM 模 式 。 只 有 在 执行 RSM 
指令 后 ， 处 理 器 会 返回 到 产生 SMI 信 号 前 的 模式 。 


6.1.2 通用 寄存 器 


通用 寄存 器 在 处 理 融 中 扮演 着 相当 重要 的 角色 ， 通 过 它们 才 可 实现 算术 与 逻辑 运行 、 地 址 寻 址 以 
及 访问 内 存 等 功能 。IA-32 体 系 结构 下 的 通用 寄存 器 有 EAX、EBX、ECX、EDX、ESI、EDI、EBP 和 
ESP。 尽 管 上 述 寄 存 器 名 可 保存 操作 数 、 结 果 值 和 内 存 地址 ， 但 ESP 寄 存 器 已 被 处 理 器 用 于 保存 栈 指 
针 值 ， 在 操作 ESP 寄 存 器 时 读者 务必 小 心 谨 慎 。 

一 些 指令 的 执行 必须 依赖 特定 的 寄存 器 , 例如 , ECX、ESI 和 EDI 寄 存 器 经 常用 于 字符 串 指 令 操 作 ， 
DS 段 寄存 器 经 常 使 用 EBX 寄 存 器 来 保存 段 内 偏 移 地 址 等 。 表 6-1 概 括 描述 了 通用 寄存 器 的 特殊 功能 。 


Hz 
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表 6-1 通用 寄存 器 的 特殊 功能 说 明 表 


名 称 特殊 功能 描述 
EAX ] 于 累加 操作 或 保存 计算 结果 
EBX 作为 DS 数 据 段 寄存 器 的 段 内 偶 移 指针 
ECX 字符 串 和 循环 操作 的 计数 器 
EDX IJO 地 址 指针 
ESI 作为 DS 数 据 段 寄存 器 的 段 内 偏 移 指针 ( 源 地 址 指针 ) 
EDI 作为 ES 数据 段 寄存 器 的 段 内 偏 移 指针 ( 目标 地 址 指针 ) 
ESP 栈 指针 
EBP 栈 帧 〈 段 内 偏 移 指针 ) 


在 IA-32e 体 系 结构 的 64 位 运行 模式 下 ， 虽 然 通用 寄存 器 的 操作 数 默 认 是 32 位 宽 ， 但 它们 有 能 力 支 
持 64 位 宽 的 操作 数 。Intel 公 司 在 64 位 运行 模式 里 加 入 了 8 个 新 的 通用 寄存 器 ， 因 此 人 处理 器 可 使 用 RAX、 
RBX、RCX、RDX、RDI、RSI、RBP、RSP、R8~R15 这 16 个 通用 寄存 器 ， 其 中 的 R8~R15 寄 存 器 只 在 
64 位 模式 下 有 效 。 所 有 这 些 寄存 器 都 可 以 访问 其 内 部 的 字 节 、 字 、 双 字 、 四 字 空 间 。 某 些 指令 需要 借 
助 REX 指 令 前 级 加 以 修饰 才 可 将 操作 数 扩展 至 64 位 。 
在 64 位 模式 下 ， 操 作 数 的 位 宽 决 定 着 寄存 器 的 有 效 位 数 ， 如 果 指 令 使 用 非 64 位 宽 的 操作 数 ， 那 么 
结果 值 可 能 会 被 0 扩展 至 64 位 ( 对 于 32 位 操作 数 而 言 )、 高 位 数据 保持 不 变 ( 对 于 8 位 或 16 位 的 操作 数 
而 言 )、 符 号 扩展 至 64 位 (对 于 64 位 的 Canonical 型 地 址 而 言 )。 

在 非 64 位 模式 下 , 通用 寄存 器 的 高 32 位 处 于 未 定义 状态 ， 当 人 处理 器 从 64 位 模式 切换 至 32 位 模式 ( 保 
护 模式 或 兼容 模式 ) 时 ， 任 何 通用 寄存 器 的 高 32 位 数据 都 不 会 保留 ， 因 此 软件 不 能 依靠 这 种 方法 来 保 
存 数值 。 


6.1.3 ”cPUID 指令 


CPUID 汇 编 指令 用 于 鉴别 处 理 器 信息 以 及 检测 处 理 器 支持 的 功能 ， 它 在 任何 模式 下 的 执行 效果 均 
相同 。 通 过 EFLAGS 标 志 寄 存 器 的 了 p 标 志 位 (位 于 EFLAGS 寄 存 器 的 第 21 位 ) 可 检测 出 处 理 器 是 否 支 
持 cPUID 指 令 。 如 果 处 理 器 支持 cPUID 指 令 ， 那 么 软件 可 自由 操作 ID 标志 位 。 

CPUID 指 令 使 用 EAX 寄存 器 作为 输入 参数 ， 该 输入 参数 的 术语 叫 作 主 功能 号 ( main-leaf )。 对 于 一 
bt 复杂 的 主 功能 来 说 ， 它 可 能 会 需要 子 功能 号 来 辅助 查询 ， 此 时 ECX 寄 存 器 会 向 cPUID 指 令 提 供 子 功 
能 号 ( sub-leaf )。 当 cPUID 指 令 执 行 结 束 后 ，cPUID 指 令 会 使 用 EAX、EBX、ECX 和 EDX 寄 存 器 保存 
执行 结果 。 在 64 位 模式 下 这 些 信 息 依然 是 32 位 的 ， 因 此 处 理 器 只 使 用 RAX、RBX、RCX 以 及 RDX 寄 存 
器 的 低 32 位 保存 执行 结果 ， 而 高 32 位 则 被 清 0。 
CPUID 指 令 可 以 查询 两 类 信息 : 基础 信息 和 扩展 信息 ， 这 两 类 信息 均 有 主 功能 号 。 基 础 信息 的 主 
功能 号 从 0h 开 始 , 目前 处 理 器 支持 的 最 大 主 功 能 号 是 14h, 处 理 器 通过 cPUID 指 令 的 主 功 能 号 0h 可 查询 
出 处 理 器 当前 支持 的 最 大 基础 功能 号 ; 扩展 信息 的 主 功 能 号 从 80000000h 开 始 ， 目 前 处 理 器 支持 的 最 
大 主 功能 号 是 80000008h， 处 理 右 通过 cPUID 指 令 的 主 功能 号 80000000h 可 查询 出 处 理 器 当前 支持 的 最 
大 扩展 功能 号 。 
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图 6-2 是 Intel 官 方 白皮书 使 用 的 cPUID 指 令 表达 方式 ， 这 种 表达 方式 不 仅 包含 操作 的 主 功能 号 、 返 
回 值 所 在 寄存 器 名 及 其 标志 位 的 位 置 ， 还 有 寄存 器 标志 位 的 名 称 缩写 。 


CPUID.80000001h:EDX[29].LM 


一 标志 位 的 功能 缩写 

一 一 返回 寄存 器 的 位 
返回 寄存 器 

主 功能 号 


图 6-2 ”cpUID 指 令 的 表达 方式 


图 6-2 非 常 直观 地 展现 出 某 一 标志 位 的 读 取 结果 ,此 种 表达 方式 亦 可 借鉴 到 其 他 寄存 器 的 表述 中 。 
比如 ，EFLAGS.IF[9] 表 示 引 用 EFLAGS 标 志 寄 存 器 的 下 中断 标 志 位 ， 它 位 于 EFLAGS 标 志 寄 存 器 的 第 9 
位 ; CR3[31:12] 表 示 引 用 CR3 控 制 寄 存 器 的 第 12~31 位 。 


6.1.4 标志 寄存 器 EFLAGS 


EFLAGS 标 志 寄 存 器 包含 有 状态 标志 位 、 控 制 标志 位 以 及 系统 标志 位 ， 处 理 器 在 初始 化 时 将 
EFLAGS 标 志 寄 存 器 赋值 为 00000002h。 在 IA-32e 体 系 结构 中 ， ee 
位 ， 其 中 的 高 32 位 保留 使 用 。 图 6-3 描 绘 了 RFLAGS 标 志 寄 存 器 各 位 的 功能 ， 其 中 的 第 1、 、15 以 
及 22~63 位 保留 使 用 。 由 于 64 位 模式 不 再 支持 YM 和 NT 标志 位 ， 所 以 处 理 器 不 5 5 
位 。( 虽然 处 理 器 允许 软件 置 位 NT 标志 位 ， 但 执行 IRET 指 令 将 触发 +GP 异 常 。 ) 
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某 些 特殊 的 汇编 指令 可 直接 修改 EFLAGS 标 志 寄 存 器 的 标志 位 。 指 令 LAHF 、SAHF 、PUSHF、 


接 下 来 ,我们 会 根据 标志 位 功能 将 EFLAGS 标 志 寄 存 器 划分 为 状态 标志 、 
并 对 其 各 部 分 的 标志 位 功能 进行 逐一 讲解 。( 请 参考 Intel 官 方 白皮书 Volume 1 的 


IOPL 区 域 等 几 部 分 ， 
3.4.3 节 。 ) 
@ 状态 标志 


通过 调用 门 执行 任务 切换 时 ， 


PUSHFD、POPFE 和 POPFD 可 实现 EFLAGS 标 志 寄存 器 与 栈 ( 或 EAX 寄存 器 ) 的 互相 保存 。 一 旦 EFLAGS 
标志 寄存 器 存 有 备份 ， 程 序 便 可 借助 BT、BTS、BTR 以 及 BTC 等 指令 对 标志 位 进行 修改 或 检测 。 当 程序 


处 理 器 会 把 EFLAGS 标 志 寄 存 器 值 保存 到 任务 状态 段 TSS 内 ， 并 将 目标 
任务 状态 段 TSS 内 的 值 更 新 到 EFLAGS 标 志 寄 存 器 中 。 


方向 标志 、 


系统 标志 和 


EFLAGS 标 志 寄 存 器 的 状态 标志 (位 0、2、4、6、7 和 11 ) 可 以 反映 出 汇编 指令 计算 结果 的 
像 AbpD、sUB、MUL 和 DIV 等 汇编 指令 计算 结果 的 奇偶 性 、 溢 出 状态 、 正 负 值 皆 可 从 上 述 状态 位 中 反应 


出 来 。 表 6-2 是 这 些 状态 标志 的 功能 


首 述 。 


表 6-2 ”状态 标志 的 位 功能 说 明 表 


状态 ， 


功能 描述 
缩写 全 称 名 称 | 位 轩 
反映 出 无 符号 整 型 计算 结果 的 溢出 状态 ， 亦 可 用 于 多 售 精 度 计算 
CF Carry flag 进位 0 i ES ee 
未 发 生 进位 或 借 位 发 生 进 位 或 借 位 
计算 结果 的 奇偶 校 验 
PF Parity flag 奇偶 2 - 
奇数 个 1 偶数 个 1 
J 于 BCD ( bi -code decimal ) 算术 运算 
AF Auxiliary Carry flag 辅助 4 CO 
未 发 生 进位 或 借 位 进位 或 借 位 
四 反映 出 计算 结果 是 否 为 0 
ZF Zero flag 零 值 6 
计算 结果 为 1 计算 结果 为 0 
反映 出 有 符号 数 运算 结果 的 正 负 值 
SF Sign flag 符号 7 
正 值 负 值 
反映 出 有 符号 加 减 计算 结果 的 溢出 状态 
OF Overflow flag 溢出 11 
未 发 生 溢出 发 生 溢出 
这 些 标志 位 可 反映 出 三 种 数据 类 型 (无 符号 整 型 数 、 有 符号 整 型 数 、BCD 整 型 数 ) 的 计算 结果 ， 
其 中 CF 标 志 位 可 反映 出 有 符号 整 型 数 计算 结果 的 溢出 状态 ，AF 标 志 位 可 反映 出 BCD 整 型 数 计算 结 


有 


的 溢出 状态 ，SF 标 志 位 可 反映 出 有 符号 整 型 数 计 算 结果 的 正 负 值 ，ZF 标 志 位 可 反映 出 整 型 数 ( 有 符号 


和 无 符号 ) 的 计算 结果 。 


以 上 状态 标志 位 ， 


令 (BT、BTS、BTR 和 BTC 指 令 ) 将 指定 位 值 复 制 到 CF 标 志 位 。 而 上 且 


只 有 CF 标志 位 可 通过 sTC、cLC 和 cMc 汇 编 指令 更 改 


新 值 。 它 也 可 借助 位 操作 指 


，CF 标 志 位 还 可 在 多 倍 精 


度 整 型 


eA 


数 计算 时 ， 结 合 ADC 指 令 ( 含 进位 的 加 法 计算 ) 或 SBB 指 令 ( 含 借 位 的 减法 计算 ) 将 进位 计算 或 借 位 


计算 扩展 到 下 次 计算 中 。 


6.1 基础 功能 与 新 特性 195 


至 于 状态 跳 转 指令 zcc 、 状 态 字 节 置 位 指令 sagTcc 、 状 态 循环 指令 LOoPcc 以 及 状态 移动 指令 
CMOVcc， 它 们 可 将 一 个 或 多 个 状态 标志 位 作为 判断 条 件 ， 进 行 分 支 跳 转 、 字 节 置 位 以 及 循环 计数 。 

@ 方向 标志 

DF 方 向 标志 位 位 于 EFLAGS 标 志 寄 存 器 的 第 10 位 ， 它 控制 着 字符 串 指 令 (诸如 MOVS 、cCMPS、 
SCAS、LODS 和 STos 等 ) 的 操作 方向 。 置 位 DF 标 志 位 可 使 字符 串 指 令 按 从 高 至 低 的 地 址 方向 〈 自 减 ) 
操作 数据 ， 复 位 DF 标 志 位 可 使 字符 串 指 令 按 从 低 至 高 的 地 址 方向 〈 自 增 ) 操作 数据 。 汇 编 指令 STD 与 
CLD 可 用 于 置 位 和 复位 DF 方向 标志 位 。 

@ 系统 标志 和 IOPL 区 域 

EFLAGS 标 志 寄 存 器 的 系统 标志 和 IOPL 区 域 ， 负 责 控制 1O 端 口 地 址 访问 权限 、 屏 蔽 硬件 中 断 请 求 、 
使 能 单 步调 试 、 任 务 般 套 以 及 使 能 虚拟 8086 模 式 等 。 表 6-3 记 录 着 各 系统 标志 位 和 IOPL 区 域 的 功能 。 


表 6-3 ”系统 标志 与 10PL 区 域 的 位 功能 说 明 表 


缩写 全 称 位 置 功能 描述 

TF Trap 8 使 能 单 步调 试 功能 

IF InterruptEnable 9 使 能 中 断 ( 响应 可 屏蔽 中 断 ) 
IOPL IO Privilege Level Field 12,13 访问 VO 端口 地 址 的 最 低 特权 级 
NT Nested Task 14 允许 任务 般 套 调用 

RF Resume 16 允许 调试 异常 

VM Virtual-8086 Mode 17 使 能 Virtual-8086 模 式 

AC Alignment Check or Access Control 18 数据 对 齐 检 测 

VIF Virtual Interrupt 19 IF 中 断 使 能 标志 位 的 虚拟 镜像 
VIP Virtual interrupt pending 20 中 断 挂 起 

ID Identification 21 检测 cPUID 指 令 


如 果 和 希望 修改 上 述 系 统 标志 位 或 IOPL 区 域 ， 则 必须 拥有 足够 的 执行 权限 〈0 特 权 级 )。VIF 和 VIP 
标志 位 只 在 Virtual-8086 模 式 中 有 效 ; AC 标 志 位 只 能 对 3 特权 级 的 数据 进行 对 齐 检测 ， 如 果 发 现 数据 未 
对 齐 则 触发 +Ac 异 常 ; 置 位 RF 标志 位 将 临时 禁止 断 点 指令 触发 #DB 异 常 ; 下 标志 位 对 NMI( Nonmaskable 
Interrupt， 不 可 屏蔽 中 断 ) 不 起 作用 。 我 们 可 借助 汇编 指令 cLI、sTI、POPF 、POPFD 和 IRET 操 作 J 下 
标志 位 。( 处 理 器 会 参考 CPL、IOPL 和 CR4.VME 标 志 位 ， 来 确定 不 同 场 景 下 的 指令 执行 权限 。 ) 


6.1.5 ”控制 寄存 器 

目前 ，Intel 处 理 器 共 拥 有 6 个 控制 寄存 器 (CRO0、CR1、CR2、CR3 、CR4 和 CR8 )， 它 们 由 若干 个 
标志 位 组 成 ,通过 这 些 标 志 位 可 以 控制 处 理 器 的 运行 模式 、 开 启 扩展 特性 以 及 记录 异常 状态 等 功能 。 
表 6-4 是 控制 寄存 器 的 功能 说 明 。 
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表 6-4 ”控制 寄存 器 的 功能 描述 表 


寄存 器 功能 描述 
CRO 控制 处 理 器 的 状态 和 运行 模式 
CR1 保留 
CR2 引起 #PF 异 常 的 线性 地 址 
CR3 记录 页 目录 的 物理 基地 址 和 属性 
CR4 体系 结构 扩展 功能 的 使 能 标志 位 
CR8 读 写 访问 的 任务 优先 级 寄存 器 


在 IA-32 体 系 结构 下 ， 控 制 寄 存 需 的 位 宽 是 32 位 ， 而 IA-32e 体 系 结构 会 将 控制 寄存 器 扩展 至 64 位 
宽 。 但 是 除 地 址 类 寄存 器 外 ， 其 他 扩展 位 均 作 保留 使 用 ， 且 必须 写 人 0。 图 6-4 是 部 分 控制 寄存 器 的 位 
功能 说 明 。 


31 30 29 28 1918171615 6543210 
PICIN A 出 W| EI TIEIMI 
1 
CR1 
31(63) 0 
页 错误 的 线性 地 址 (Page-Fault Linear Address) CR2 


31(63) 12 11 


页 目录 基地 址 (Page-Directory Base) 


3120 18171615 1413 12 1110 9 8 7 6 
SS 吕 PlpIM 
clac 
X|X E|EE 
EjE 
FSGSBASE | LosrxsR 
OSXSAVE_ L_PCIDE L__OSXMMEXCPT 


加 保留 
图 6-4 ”控制 寄存 器 的 位 功能 说 明 图 


通过 MOV CRn 汇 编 指 令 可 对 控制 寄存 器 进行 操作 ， 其 中 的 保留 位 必须 写 人 数值 0/， 和 否则 会 触发 #GP 
异常 。CR2 和 CR3 控 制 寄存 器 不 会 对 写 人 的 地 址 进行 检测 〈 物理 地 址 与 线性 地 址 均 不 检测 ); CR8 控 制 
寄存 器 只 在 64 位 模式 下 有 效 ， 该 寄存 器 的 详细 功能 将 在 第 10 章 中 予以 讲解 。 表 6-5 是 控制 寄存 器 各 有 效 
标志 位 的 功能 说 明 。( 请 参考 Intel 官 方 白皮书 Volume 3 的 2.5 节 。) 
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表 6-5 ”控制 寄存 器 的 位 功能 说 明 表 


缩写 全 称 功能 描述 

PG Paging 使 能 分 页 管理 机 制 

CD Cache Disable 控制 系统 内 存 的 缓存 机 制 

NW Not Write-through 控制 系统 内 存 的 写 穿 机 制 

AM Alignment Mask 数据 对 齐 检测 

WP Write Protect 开启 只 读 页 的 写 保 护 

NE Numeric Error 选择 x87FPU 的 错误 通知 机 制 

ET Extension Type 检测 Intel 387 DX 协 处 理 器 

TS Task Switched 延迟 保存 浮 点 处 理 器 的 数据 

EM Emulation 检测 x87 FPU 协 处 理 需 

MP Monitor Coprocessor 使 能 WAIT 指令 监控 

PE Protection Enable 开启 保护 模式 

PCD Page-level Cache Disable 页 级 禁止 缓存 标志 位 

PWT 了 Page-level Write-Through 页 级 写 穿 标志 位 

SMAP SMAP-Enable Bit 限制 超级 权限 对 用 户 数据 的 访问 

SMEP SMEP-Enable Bit 限制 超级 权限 对 用 户 程序 的 执行 

OSXSAVE XSAVE and Processor Extended States-Enable Bit 开启 XSAVE、XRSTOR、XGETBV、XSETBV 等 指 
令 的 增强 功能 

PCIDE PCID-Enable Bit 开启 PCID 功 能 

FSGSBASE FSGSBASE-Enable Bit 使 能 RDFSBASE、WRFSBASE 以 及 RDGSBASE、 
WRGSBASE 指 令 

SMXE SMX-Enable Bit - 启 SMX 功 能 

VMXE VMX-Enable Bit 开启 VMX 功 能 

OSXMMEXCPT Operating System Support for Unmasked SIMD 人 允许 处 理 器 执行 SIMD 浮 点 异常 (#XM ) 

Floating-Point Exceptions 
OSFXSR Operating System Support for FXSAVE and 限制 FXxSAVE、FXRSTOR 指 令 的 功能 
FXRSTOR instructions 

PCE Performance-Monitoring Counter Enable 限制 RDPMCc 指 令 的 执行 权限 

PGE Page Global Enable 开局 全 局 页 表 功 能 

MCE Machine-Check Enable 开局 机 器 检测 异常 

PAE Physical Address Extension 开启 页 管理 机 制 的 物理 地 址 寻 址 扩展 

PSE Page Size Extensions 允许 32 位 分 页 模式 使 用 4 MB 物理 页 

DE Debugging Extensions 击 能 DR4、DR5 调 试 寄存 带 

TSD Time Stamp Disable 限制 RprTSC、RDTSCP 指 令 的 执行 权限 

PVI Protected-Mode Virtual Interrupts 使 能 EFLAGs .VIF 标 志 位 

VME Virtual-8086 Mode Extensions 使 能 Virtual-8086 模 式 的 中 断 /异常 

TPL Task Priority Level 阻塞 中 断 的 最 高 特权 级 阅 值 

如 果 在 cR0.PE=0 时 ， 置 位 CR0.PG 标 志 位 将 会 触发 +GP 异 常 。CR0.CD 与 CRO.NW 标 志 位 联合 控制 


着 处 理 絮 的 缓存 和 读 写 策略 ， 表 6-6 描 述 了 两 者 可 组 合成 的 策略 。 
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表 6-6 ”缓存 和 读 写 策略 表 


CD NW 缓存 和 读 写 策略 
0 0 标准 缓冲 模式 ， 提 供 最 高 效 的 缓存 策略 
0 1 无 效 设置 ， 触 发 错误 码 为 0 的 #GP 异 常 
1 0 处 理 器 无 法 缓存 数据 ， 但 需要 保持 内 存 的 一 致 性 
1 1 处 理 器 无 需 保持 内 存 与 缓存 的 一 致 性 
处 理 器 的 CR0.TS、CR0.EM 以 及 CR0.MP 标 志 位 都 用 于 控制 浮 点 处 理 器 (x87FPU、MMX、SSE、 


SSE2、SSE3 、SSSE3 、SSE4 等 ) 的 执行 动作 。 表 6-7 记 录 着 处 理 器 遇 到 x87 FPU 指 令 时 作出 的 反应 。 
表 6-7 关于 TS、EM、MP 标 志 位 的 处 理 器 动作 表 


CR0 标 志 位 x87 FPU 指 令 类 型 
EM MP TS Floating-Point WAIT/FWAIT 
0 0 0 正常 执行 正常 执行 
0 0 1 #NM 异 常 正常 执行 
0 1 0 正常 执行 正常 执行 
0 1 1 #NM 异 常 #NM 异 常 
1 0 0 #NM 异 常 正常 执行 
1 0 1 #NM 异 常 正常 执行 
1 1 0 #NM 异 常 正常 执行 
1 1 1 #NM 异 常 #NM 异 常 


标志 位 TS、EM、MP 对 MMX、SSE、SSE2、SSE3、SSSE3 以 及 SSE4 指 令 的 影响 会 更 复杂 一 些 ， 
对 它们 感 兴趣 的 读者 请 自行 学 习 。 

除 CRn 控 制 寄 存 器 和 XCRO 扩 展 控 制 寄 存 器 ( 用 于 控制 浮 点 计算 功能 ) 外 ，EFER 寄 存 器 也 用 于 控 
制 系统 功能 。 它 是 MSR 寄 存 器 组 的 IA32_EFER 寄 存 器 ， 它 提供 了 控制 IA-32e 运 行 模式 开启 的 标志 位 ， 
以 及 关于 页 表 访 问 限制 的 控制 区 域 。 图 6-5 是 IA32_ EFER 寄 存 器 的 位 功能 说 明 。 
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63 


禁止 执行 标志 位 
1A-32e 模 式 激活 标志 位 
IA-326 模 式 使 能 标志 位 

SYSCALL 指 令 使 能 标志 位 


项 国 保留 


图 6-5 JIA32_EFER 扩 展 寄 存 器 的 位 功能 说 明 图 
表 6-8 描 述 了 IA32_EFER 寄 存 器 的 各 标志 位 功能 ， 其 中 的 LME 标 志 位 最 为 重要 , 它 用 于 开启 IA-32e 
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模式 ， 而 第 0 位 则 是 syscaLL/VSYSRET 指 令 的 使 能 位 。 这 对 指令 由 AMD 公 司 引 入 ，Intel 处 理 器 对 它们 
仅 提 供 了 有 限 的 支持 。 


表 6-8 1IA32_EFER 寄 存 器 的 位 功能 说 明 表 


位 缩写 读 写 功能 描述 
0 SCE R/W SYSCALL/SYSRET 指 令 的 使 能 标志 位 〈64 位 模式 有 效 ) 
1:7 一 保留 
8 LME RW 使 能 IA-32e 模 式 
9 保留 
10 LMA R 当 IA32_EFER_LMA=1 表 明 IA-32e 模 式 已 开启 
11 NXE RW 开启 页 访问 限制 功能 (PAE 模式 可 用 ) 
12:63 一 保留 


表 中 涉及 IA-32e 模 式 使 能 状态 和 页 面 访问 限制 的 标志 位 将 在 本 章 后 续 部 分 讲解 。 
6.1.6 MSR 寄存 名 组 EE 


MSR ( Model-Specific Register ) 寄存 器 组 可 提供 性 能 监测 、 运 行 轨迹 跟踪 与 调试 以 及 其 他 处 理 器 
功能 。 在 使 用 MSR 寄 存 器 组 之 前 , 我 们 应 该 通过 cPUID.01h:EDX[5] 来 检测 处 理 器 是 否 支持 MSR 寄 存 
器 组 。 值 得 注意 的 是 ,每 种 处 理 器 家 族 都 有 自己 的 MSR 寄 存 器 组 ,我们 在 使 用 MSR 寄 存 器 组 前 需要 根 
据 处 理 器 家 族 信 息 (通过 cPUID.01h 查 询 处 理 器 家 族 信息 ) 选择 与 之 相对 应 的 MSR 寄 存 器 组 。 

处 理 器 可 以 使 用 指令 RDMSR 和 wRMSR 对 MSR 寄 存 器 组 进行 访问 ， 整 个 访问 过 程 借助 ECX 寄 存 器 索 
引 寄存 器 地 址 , 再 由 EDX:EAX 组 成 的 64 位 寄存 器 保持 访问 值 。( 在 处 理 器 支持 64 位 模式 下 , RCX、RAX 
和 RDX 寄 存 器 的 高 32 位 将 会 被 忽略 。) 而 且 这 对 指令 必须 在 实 模式 或 0 特权 级 下 执行 , 否则 将 会 触发 #GP 
异常 ， 使 用 MSR 寄 存 器 组 的 保留 地 址 或 无 效 地 址 都 会 产生 通用 保护 异常 。 

在 本 系统 的 研发 过 程 中 ,我 们 也 会 使 用 MSR 寄 存 器 ， 其 中 会 涉及 使 能 IA-32e 模 式 的 [A32_EFER 寄 
存 器 ( 通常 情况 下 该 寄存 器 在 地 址 0C0000080h 处 ) 和 SYSsENTER/SYSEXIT 指 令 相 关 的 配置 寄存 器 ( 通 
常情 况 下 这 些 寄存 器 在 地 址 174h、175h 以 及 176h 处 )。 这 些 寄存 器 地 址 可 能 会 根据 其 处 理 器 家 族 的 不 
同 而 有 所 变化 ， 因 此 还 请 读者 根据 实际 情况 在 Intel 官 方 白皮书 中 查找 出 准确 值 。 


6.2 地址 空间 


在 学 习 处 理 器 的 运行 模式 前 ， 让 我 们 先 来 了 解 一 些 有 关 地 址 空间 的 概念 。 地 址 空间 在 一 般 情 况 下 
主要 分 为 两 大 类 : 虚拟 地 址 空间 和 物理 地 址 空间 。 而 虚拟 地 址 空间 又 可 分 为 : 逻辑 地 址 、 有 效 地 址 、 
线性 地 址 等 。 这 些 地 址 空间 是 可 以 互相 转换 的 ， 掌握 它们 的 特点 和 关系 ， 可 以 帮助 我 们 更 好 理解 各 运 
行 模式 的 地 址 转换 过 程 。 

不 同 的 处 理 器 运行 模式 ， 其 所 在 地 址 空间 也 各 不 相同 。 将 当前 地 址 空间 转换 为 物理 地 址 空间 的 过 
程 往往 需要 经 过 若干 层 转 换 。 一 个 典型 的 例子 是 在 程序 执行 时 触发 缺 页 异常 ， 异 常 处 理 程序 会 为 异常 
地 址 分 配 空闲 物理 页 ， 这 个 分 配 过 程 会 涉及 地 址 空间 的 转换 。 又 比如 在 借助 DMA 控 制 需 读数 据 时 ,由 
于 DMA 控 制 器 只 能 访问 物理 地 址 ， 那 么 程序 必须 清楚 DMA 控 制 器 访问 的 物理 地 址 位 于 当前 地 址 空间 
的 哪个 位 置 ,才能 取 回 DMA 读 取 的 数据 。 在 操作 系统 的 运行 过 程 中 ， 地 址 空间 转换 操作 经 常会 发 生 ， 
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请 读者 在 转换 时 务必 保持 清晰 的 思路 。 
6.2.1 虚拟 地 址 


虚拟 地 址 ( Virtual Address ) 是 抽象 地 址 的 统称 , 它们 大 多 不 能 独立 转换 为 物理 


有 效 地 址 、 线 性 地 址 和 平坦 地 址 展 属 于 虚拟 地 址 的 管理 范畴 。 


口 逻辑 地 址 (Logical Address)。 在 操作 系统 的 研发 过 程 中 ， 逻 加 
格式 为 Segment: Offset。 例 如 前 文 使 用 的 远 跳 转 汇 编 指 令 ， 其 目标 地 址 
地 址 两 部 分 构成 (如 : jmp aqworq SelectorCode32:GO_TO_TMP_Protect )， 这 就 是 逻辑 
地 址 。 此 处 的 段 内 偏 移 地址 Offset 也 叫 作 有 效 地 址 (Effective Address )， 在 C 语 言 或 其 他 高 级 纺 
程 语言 里 ， 获 得 变量 或 函数 的 地 址 就 是 获得 其 有 效 ] 


但 不 同 运 行 模式 下 的 转换 过 程 各 不 相同 ， 详 细 转 换 过 程 将 在 稍 后 予以 讲解 。 


口 线性 地 址 (Linear Address)。 线 性 地 址 是 通过 逻辑 


地 址 ， 像 逻辑 地 址 、 


地 址 经 常会 使 用 到 ， 它 的 书写 
1 段 基 地 址 和 段 内 偏 移 


也 址 。 逻 辑 地址 最 终 都 会 转换 为 线性 地 址 ， 


地 址 中 的 段 基 地 址 与 段 内 偏 移 地 址 组 合 而 


成 , 这 使 得 程序 无 法 直接 访问 线性 地 址 。 而 平坦 地 址 ( Flat Address ) 作 为 一 种 特殊 的 线性 地 址 ， 
将 段 基 地 址 和 段 长 度 履 盖 了 整个 线性 地 址 空间 ， 而 非 线性 地 址 空间 中 的 某 一 部 分 区 域 。 


对 于 繁琐 复杂 的 段 管理 机 制 而 言 ， 采 用 平坦 地 址 可 将 段 管理 


基地 址 为 0 时 ， 段 内 偏 移 地 址 ( 有效 地 址 ) 与 线性 地 址 在 数值 上 相等 。 


6.2.2 ”物理 地 址 


机 制 的 地 址 转换 过 程 透 明 化 ， 即 当 段 


物理 地 址 ( Physical Address ) 是 真实 存在 于 硬件 设备 上 的 ， 它 通过 处 理 咒 的 引 脚 直接 或 间接 地 与 


外 部 设备 、RAM、ROM 相 连接 。 因 此 ， 


物理 地 址 空间 


地 址 将 直接 映射 为 物理 地 址 。 


不 仅 包含 物理 内 存 (RAM、ROM ) 还 有 硬件 


设备 。 在 处 理 器 开启 分 页 机 制 的 情况 下 ， 线 性 地 址 需要 经 过 页 表 映 射 才能 转换 成 物理 地 址 ; 否则 线性 


口 VO 地 址 〈VO Address)。IO 地 址 空间 与 内 存 地 址 空间 相互 隔离 ， 它 必须 借助 特殊 的 INOUT 指 


令 才 能 访问 。LILO 地 址 空间 由 65 536 个 可 独立 寻 址 的 IO 端口 组 成 ， 寻 址 范 目 


端口 地 址 F8h~FFh 保 留 使 用 。 


口 内 存 地 址 (Memory Address)。 内 存 地 址 空间 不 单单 只 有 物 型 


目 0~FFFFh， 其 中 的 


内 存 ， 还 包含 其 他 外 部 硬件 设备 


的 地 址 空间 ， 这 些 设 备 与 物理 内 存 共享 内 存 地 址 空间 。 随 着 时 间 的 推移 ， 内 存 地 址 空间 在 保持 
向 前 兼容 性 的 同时 ， 不 断 增强 寻 址 能 力 ， 从 而 造成 可 用 物理 内 存 的 片段 化 、 不 连续 化 。 所 以 ， 


可 用 物理 内 存 空 间 、 设 备 地 址 空间 以 及 内 存 地 址 空洞 才 会 穿 捐 


排列 在 内 存 地 址 空间 里 。 操 作 系 


统 借助 BIOS 中 断 服务 程序 INT 15h 的 主 功能 编号 AX=E820h 可 获取 内 存 地 址 空间 的 相关 信息 。 


6.3 ” 实 模 式 


实 模式 作为 Intel 处 理 器 家 族 诞生 的 第 一 种 运行 模式 已 经 存在 了 很 多 年 。 现 在 它 仪 


系统 和 更 新 硬件 设备 的 ROM 国 件 为 了 况 


民 顾 处 得 


E 克 的 向 下 卉 


用 于 引导 启动 操作 


容 性 它 将 一 直 存在 于 处 理 器 的 体系 结构 中 。 


相信 看 过 初级 篇 的 读者 都 很 清楚 ， 本 书 操作 系统 的 运行 同样 始 于 实 模式 。 那 么 就 让 我 们 先 从 最 简 


单 、 最 基础 的 实 模式 开始 学 起 。 
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6.3.1 实 模式 概述 


在 Intel 官 方 白皮书 中 ， 英 文 术语 Real Mode 或 Read-Address Mode 均 指 实 模 式 。 实 模式 的 特点 是 采 
用 独特 的 段 寻 址 方式 进行 地 址 访问 ,处理 器 在 此 模式 可 直接 访问 物理 地 址 。 在 实 模 式 下 ,通用 寄存 器 
的 位 宽 只 有 16 位 ， 这 使 得 实 模式 的 寻 址 能 力 极 其 有 限 ， 就 算 借助 段 寻 址 方式 ， 通 常情 况 下 实 模式 也 只 
能 寻 址 1 MB 的 物理 地 址 空间 。 


6.3.2” 实 模式 的 段 寻 址 方式 


实 模式 采用 逻辑 地 址 编 址 方式 ， 通 过 段 基地 址 加 段 内 偏 移 地 址 的 形式 进行 地 址 寻 址 ， 其 书写 格式 
为 Segment: Offset。 其 中 的 段 基 地 址 值 Segment 保 存在 段 寄 存 器 中 ， 段 内 偏 移 地 址 值 OfEset 可 以 保存 在 
寄存 器 内 或 使 用 立即 数 代替 。 借 助 公式 (6-D) 可 将 逻辑 地 址 转换 成 线性 地 址 。 

Linear Address =Segment < 4+ Offset (6-1) 

实 模式 的 寄存 器 位 宽 只 有 16 位 ， 这 导致 段 内 偏 移 量 Offset 的 取 值 范围 只 能 是 0~FFFFh， 这 个 取 值 范 
习 也 表明 有 段 的 长 度 无 法 超过 64 KB 。 而 且 ， 实 模式 不 支持 分 页 机 制 ， 从 而 使 得 线性 地 址 直接 映射 为 物 
理 地 址 。 

实 模式 的 这 种 逻辑 地 址 编 址 方式 将 原本 只 有 16 位 寻 址 能 力 的 处 理 器 扩展 至 20 位 ， 因 为 段 基 地 址 在 
转换 过 程 中 必须 向 左 移动 4 位 ， 所 以 段 基 地 址 都 是 按照 16 B 边 界 对 齐 。 通 过 特殊 手段 可 将 实 模式 的 寻 
址 能 力 扩 展 至 4 GB ， 详 细 实现 方法 请 参见 第 7 章 。 


6.3.3 ” 实 模式 的 中 断 向 量 表 


在 实 模式 下 ， 中 断 / 异 常 借助 中 断 向 量 表 ( Interrupt Vector Table，IVT ) 将 中 断 / 异 常 向 量 号 与 处 理 
程序 相关 联 。 实 模式 采用 逻辑 地 址 来 表示 每 个 处 理 程 序 的 起 始 地 址 ，IVT 有 256 项 ， 每 项 占 4 B，IVT 
共 需 要 1 KB 的 存储 空间 。 

通常 情况 下 ， 实 模式 的 IVT 保 存 于 物理 地 址 0 处 ， 图 6-6 是 IVT 的 组 织 结 构 。 


ey 


000003FEh SEment vector 255 
000003FCh oftset 
物理 地 址 空间 b 1 KB 空间 

segment 

00000008h Vector 1 

00000004h UE 
segment 

00000002h vector 0 

00000000h os 

图 6-6 ” IVT 组织 结构 图 
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在 计算 机 启动 后 ，BIOS 会 在 物理 地 址 0 处 创建 中 断 向 量 表 IVT。 如 曙 


或 保存 中 断 向 量 表 ， 我 们 可 借助 : 
实 模式 虽然 简单 ， 但 它 的 寻 : 


LID] 


不能 


r 和 sIDT 指 令 实 现 。 


力 和 安全 策略 极 


渐 地 它 融 入 了 历史 


6.4 


保护 模式 作为 Intel 处 理 器 家 族 最 为 


保护 模式 


的 洪流 中 ， 取 而 代 之 的 是 保护 模式 。 


要 的 运行 模式 之 一 ， 已 经 在 PC 机 世界 9 


希望 在 程序 运行 过 程 


使 


FP 修改 


其 有 限 ， 早 已 无 法 满足 系统 运行 的 基本 要 求 。 渐 


日 了 很 多 年 。 至 


今 , 已 有 诸多 操作 系统 运行 在 32 位 保护 模式 下 。 那 么 ， 保 护 模式 究竟 保护 的 是 什么 呢 ? 这 还 要 从 实 模 


式 说 起 ， 


问 目标 段 的 权限 ， 这 使 得 应 
统 核心 进行 操作 必须 和 
有 意 或 无 意 地 破坏 


对 于 实 模式 的 段 机 人 


别 而 言 ， 它 仪 仅 规 定 了 逻辑 地 址 与 线 怕 


6.4.1 


保护 模式 ， 它 采 月 
模式 不 但 在 新 的 分 段 机 人 


保护 模式 概述 


用 程序 可 以 出 
上 有 足够 的 访问 权 民 
其 他 程序 和 数据 。 下 面 就 让 我 


日 全 新 的 分 段 管理 机 
所 中 扩大 了 处 理 右 的 寻 址 能 力 和 权限 检测 ,而 是 


LE 无 忌 尽 
民 才 行 ， 这 吉 


也 对 


出 和 分 页 管理 机 


地 址 间 的 转换 方式 ， 却 没有 限 
系统 核心 进行 操作 。 但 在 保护 模式 下 ， 若 想 对 系 
是 保护 的 意义 : 操作 系统 可 在 处 到 
门 一 起 来 看 看 保护 模式 到 底 做 了 哪些 改进 。 


十 


让 


央 访 


顺 级 防止 程序 


判 来 代替 实 模式 仅 基 于 段 的 寻 址 方式 。 保 护 
[还 进一步 引入 了 分 页 机 


| 将 原 


本 线性 的 内 存 地 址 空间 分 页 化 、 立 体 化 ， 以 便于 处 理 器 对 内 存 片 段 的 组 织 和 管理 。 虽 然 保 护 模式 支持 


分 段 和 分 页 两 种 管理 机 
使 用 分 页 管理 


制 是 必 选 : 


央 ， 但 是 处 下 


名 必须 先 经 过 分 段 管理 


EL 


叫 将 逻辑 地 址 转换 成 线 怕 


E 地 址 后 ， 


才能 


机 制 进一步 把 线性 地 址 转换 成 物理 地 址 (注意 ， 分 页 管理 机 制 是 可 选项 ， 而 分 段 管理 机 
项 )。 图 6-7 大 致 描绘 了 保护 模式 下 的 各 地 址 空间 转换 过 程 。 
逻辑 地 址 
Y 
段 选择 地 段 内 偏 移 
线性 地 址 空间 i 
二 是 物理 地 址 空间 
Directory| Table | Offset 物理 页 
全 局 描述 符 表 GDT | 物理 页 | 
一 >| 物理 地 址 
页 目录。 | | 责 雪 页 | 半 --- -| 
| 段 描 述 符 段 地 址 空间 || | 页 目 妇 天 
线性 地 址 上 一 
{pm 
段 基 地 址 ” 
| 段 管理 机 制 页 管理 机 制 
图 6-7 保护 模式 的 地 址 空间 转换 示意 图 
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保护 模式 同样 采用 风 辑 地 址 编 址 方式 ， 只 不 过 此 时 的 段 寄 存 器 保存 的 不 再 是 段 的 基地 址 而 是 一 个 
索引 值 (这 个 索引 值 叫 作 段 选择 子 一 一 Selector )。 处 理 器 根据 段 选 择 子 从 段 描述 符 表 中 索引 出 与 之 对 


应 的 段 描述 符 并 将 其 加 载 到 段 寄 存 器 内 ， 接 着 段 寄存 器 再 从 刚 加 载 的 段 描 述 符 中 取得 段 的 基地 址 。 
为 了 便于 规划 执行 功能 ， 处 理 器 为 保护 模式 定义 了 4 个 特权 级 ， 特 权 级 由 高 至 低 分 别 是 0、1、2、 
3。( 请 参考 Intel 官 方 白皮书 Volume 3 的 5.5 节 、5.6 节 。 ) 图 6-8 是 保护 模式 的 特权 级 示意 图 ， 其 中 0 特权 


级 被 操作 系统 内 核 层 使 用 ， 其 他 3 个 特权 级 可 以 给 应 用 程序 或 系统 服务 使 用 。 对 于 某 些 控制 指令 而 言 ， 
它们 只 能 在 0 特权 级 下 执行 ， 如 在 其 他 特权 级 下 执行 将 会 触发 异常 。 
保护 模式 特权 级 


操作 系统 内 核 


系统 服务 


图 6-8 ”保护 模式 下 的 特权 级 


不 仅 如 此 ， 保 护 模式 还 引入 了 CPL、DPL 以 及 RPL 三 种 特权 级 类 型 来 帮助 处 理 器 检测 执行 权限 。 

口 CPL (Current Privilege Level， 当 前 特权 级 )。CPL 描 述 了 当前 程序 的 执行 特权 级 ， 它 保存 在 
CS 或 SS 段 寄 存 器 的 第 0 和 第 1 位 中 。 通 常情 况 下 ，CPL 是 正在 执行 的 代码 段 特 权 级 ， 当 处 理 需 
执行 不 同 特权 级 的 代码 段 时 ， 处 理 器 才 会 修改 CPL 特 权 级 。 而 当 处 理 器 执行 一 致 性 代码 段 时 情 


况 会 有 些许 不 同 ， 在 6.4.2 节 中 将 会 对 一 致 性 代码 段 做 进一步 讲解 。 

口 DPL (Descriptor Privilege Level， 描 述 符 特 权 级 )。DPL 用 于 表示 段 描 述 符 或 者 门 描述 符 的 特 
权 级 ， 它 保存 于 段 描述 符 或 者 门 描述 符 的 DPL 区 域内 。 当 处 理 器 访问 段 描 述 符 或 者 门 描述 符 
时 ， 处 理 需 将 会 对 比 描述 符 中 的 DPL 值 、 段 寄存 器 的 CPL 值 以 及 段 选 择 子 的 RPL 值 。 


口 RPL (Requested Privilege Level， 请 求 特权 级 )。RPL 是 段 选择 子 的 重 载 特权 级 ， 用 于 确保 程 


序 有 足够 的 权限 去 访问 受 保护 的 程序 ， 它 保存 于 段 选择 子 的 第 0 和 第 1 位 。RPL 与 CPL 均 用 于 检 
测 目标 段 的 访问 权限 。 也 就 是 说 , 即使 程序 拥有 足够 权限 去 访问 目标 段 , 但 如 果 RPL 权 限 不 足 ， 


程序 依然 无 法 访问 目标 段 。 


因此 ， 当 段 选 择 子 的 RPL 值 大 于 CPL ( 数值 越 大 特权 级 越 低 ) 时 ， 


RPL 将 会 覆盖 CPL， 反 之 亦 然 。 
在 RPL 的 描述 中 提 及 段 选择 子 这 一 概念 ， 在 初级 篇 中 也 曾 提 及 。 其 实 ， 段 选择 子 只 是 一 个 16 位 的 
段 描述 符 索引 值 ， 图 6-9 是 段 选 择 子 的 位 功能 说 明 。 
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段 选 择 子 索 引 (Index) T| RpL 


描述 符 表 类 型 (Table Indicator) 
TI=LDT 


» 


请 求 特权 级 (Requested Privilege Level) 


图 6-9 ”自选 择 子 位 功能 说 明 图 ( 保护 模式 ) 


保护 模式 下 的 段 寄 存 器 无 法 直接 加 载 段 描 述 符 ， 它 必须 借助 段 选择 子 索引 才能 将 目标 段 描 述 
载 到 段 寄 存 器 的 缓存 区 内 。 表 6-9 是 段 选择 子 各 位 的 功能 说 明 。 


党 
ch 
互 


表 6-9 ”上 段 选 择 子 的 位 功能 说 明 表 保护 模式 ) 


缩写 全 称 功能 描述 
= Index 用 于 索引 目标 段 描述 符 
TI Table Indicator 指示 目标 段 描述 符 所 在 描述 符 表 类 型 


RPL Requested Privilege Level 请 求 特权 级 


处 理 器 将 Index * 8 作为 偏 移 量 ， 从 描述 符 表 ( TI-=0: 全 局 描述 符 表 GDT，TI=1: 局 部 描述 符 表 
LDT ) 中 取得 目标 描述 符 ， 并 对 CPL 、RPL 以 及 DPL 特 权 级 进行 检测 。 如 果 检 测 通过 ， 处 理 器 便 将 目 
标 描 述 符 加 载 到 段 寄 存 器 的 缓存 区 内 。 

为 了 减少 地 址 转换 时 间 与 编码 的 复杂 性 ， 处 理 器 已 为 保护 模式 下 的 CS、SS、DS、ES、FS 以 及 
GS 有 段 寄 存 器 加 入 了 缓存 区 域 ， 这些 段 寄存 器 的 缓存 区 域 记录 着 段 描 述 符 的 基地 址 、 限 长 和 属性 信 
息 ， 图 6-10 描 述 了 保护 模式 下 的 段 寄存 器 结构 。 虽 然 系 统 可 以 定义 数 以 千 计 个 段 描述 符 (8192 个 )， 
但 同一 时 刻 只 能 使 用 6 个 段 。 


Bs tr TL Os 
村 点 位 TL-0GDTELDTGDTLDT 届 达 符 点 


段 撞 述 符 
段 选择 子 Index 
oa lt 时 
隐藏 部 分 可 视 部 分 
段 其 地址、 段 眼 长、 段 怖 隆 段 选择 了 |]CS 
SS 
DS 
ES 
Le 
GS 


段 容 作 器 


起 也 描述 答 
图 6-10 ”保护 模式 下 的 段 寄存 器 


保护 模式 下 的 段 寄 存 器 共 包 含 两 个 区 域 : 可 见 区 域 和 不 可 见 区 域 。 当 段 选择 子 被 处 理 器 加 载 到 段 
寄存 器 的 可 见 区 域 后 ， 处 理 器 会 自动 将 段 描述 符 〈 包 括 基地 址 、 长 度 和 属性 信息 ) 载 人 到 段 寄存 器 的 
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不 可 见 区 域 。 处 理 器 通过 这 些 缓存 信息 ， 可 直接 进行 地 址 转换 ， 进 而 免 去 了 重复 读 取 内 存 中 的 段 描述 
符 的 时 间 开 销 。 在 多 核 处 理 器 系统 中 ， 当 描述 符 表 发 生 改 变 时 ， 软 件 有 义务 重新 将 段 描述 符 加 载 到 段 
寄存 器 。 如 果 段 寄存 需 没 有 更 新 ， 处 理 器 可 能 仍 沿 用 缓存 区 中 的 段 描 述 符 数据 。 

在 加 载 段 选择 子 到 段 寄 存 器 的 过 程 中 ， 处 理 器 会 根据 自选 择 子 的 Index 值 ， 从 GDTR/LDTR 寄 存 器 
指向 的 描述 符 表 中 索引 上 段 描 述 符 。GDTR/LDTR 寄 存 器 是 一 个 48 位 的 伪 描 述 符 ( Pseudo-Descriptor )， 
其 中 保存 着 全 局 描述 符 表 或 局 部 描述 符 表 的 首 地 址 和 长 度 。 为 了 避免 3 特权 级 的 对 齐 检测 错误 ， 伪 描 
述 符 应 该 按 双 字 进行 地 址 对 齐 。 图 6-11 描 绘 了 段 选 择 子 索引 段 描述 符 的 过 程 。 


TT EB | aas 
六 TI= 0 TI= 1 

56 56 

48 48 

40 40 

32 32 

24 24 


NULL 段 描述 符 0 
47 1615 可 视 部 分 隐藏 部 分 
基地 址 长 度 段 寄存 器 | 段 选 择 子 | ” 段 基地 址 | ” 段 限 长 
GDTR LDTR 


图 6-11 保护 模式 下 的 描述 符 表示 意图 


对 上 图 中 的 描述 符 表 (GDT 和 LDT ) 的 解释 如 下 。 

口 全 局 描述 符 表 〈Global Descriptor Table，GDT)。 它 本 身 不 是 一 个 段 描 述 符 ， 而 是 一 个 线性 地 
址 空间 中 的 数据 结构 。 在 使 用 GDT 前 ， 必 须 使 用 LGDT 汇 编 指令 将 其 线性 基地 址 和 长 度 加 载 到 
GDTR 寄 存 器 中 。 由 于 段 描述 符 的 长 度 为 8B， 那 么 GDT 的 线性 基地 址 按 8 B 边 界 对 齐 可 使 处 理 
器 的 运行 效果 最 佳 ，GDT 的 长 度 为 8N - 1 (N 是 段 描述 符 项 数 )。 

口 局 部 描述 符 表 (Local Descriptor Table，LDT)。 它 是 一 个 LDT 段 描述 符 类 型 的 系统 数据 段 ， 

因此 处 理 器 必须 使 用 GDT 的 一 个 段 描 述 符 来 管理 它 。 处 理 器 使 用 LLDT 汇 编 指令 可 将 GDT 表 内 

的 LDT 段 描述 符 加 载 到 LDTR 寄 存 器 , 随后 处 理 右 会 自动 完成 加 载 伪 描 述 符 结 构 体 的 工作 LDT 

段 描述 符 可 以 保存 在 GDT 的 任何 地 方 , 如 果 系 统 支持 多 个 LDT 表 , 那么 系统 必须 在 GDT 表 中 为 

每 个 LDT 表 创建 独立 的 段 描述 符 和 段 存储 空间 。 为 了 避免 地 址 转换 ，LDTR 寄 存 器 同样 会 保存 

LDT 段 描述 符 的 段 选择 子 、 线 性 基地 址 以 及 长 度 。 
全 局 描述 符 表 的 第 0 个 表 项 被 作为 空 段 选 择 子 (NULL Segment Selector ) 处 理 器 的 CS 或 SS 段 寄 存 
器 不 能 加 载 NULL 段 选择 子 , 否则 会 触发 +GP 异 常 。 其 他 段 寄 存 器 则 可 使 用 NULL 段 选择 子 进 行 初始 化 。 
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若 想 让 操作 系统 运行 在 保护 模式 下 ， 我 们 必须 为 操作 系统 创建 至 少 一 个 全 局 描述 符 表 ， 并 将 操作 
系统 运行 所 必须 的 程序 和 数据 保存 在 表 中 。 而 局 部 描述 符 表 则 可 创建 一 个 、 多 个 亦 或 者 不 创建 。 以 上 
这 些 内 容 是 保护 模式 的 整体 结构 概述 ， 接 下 来 我 们 将 围绕 它们 讲述 具体 细节 。 


6.4.2 ”保护 模式 的 段 管理 机 制 
保护 模式 的 段 管理 机 制 较 实 模式 的 段 机 制 复 杂 许 多 ， 而 且 并 非 在 实 模式 段 机制 的 基础 上 进行 的 扩 


展 。 就 个 人 观点 而 言 ， 保 护 模式 的 段 管理 机 制 是 一 套 健全 、 独 立 、 基 于 好 辑 地 址 寻 址 方式 的 管理 机 制 ， 
其 中 不 乏 涉 及 段 的 执行 权限 、 属 性 等 检测 信息 。 
图 6-12 描 述 了 保护 模式 下 的 段 描 述 符 的 位 功能 。 在 保护 模式 下 ， 无 论 是 程序 还 是 数据 ， 都 必须 使 


用 段 描述 符 加 


以 修饰 。 虽 然 保 护 模式 可 以 不 开启 分 页 管理 机 制 ， 但 进入 保护 模式 也 就 意味 着 开启 了 段 


管理 机 制 ， 可 以 说 段 管理 机 制 贯穿 着 保护 模式 的 整个 运行 周期 。 下 面 就 九 九 道 来 段 管理 机 制 的 各 技术 


细节 。( 请 参考 Intel 官 方 白皮书 Volume 3 的 3.4.5 节 。) 
5655 54535251 484746 454443 4039 32 31 16 15 
用 
眉 基 地 址 | | 信人 攻 代 | | 、， 。 | 眉 基 地 址 | 。 段 基地 址 眉 长 度 
(Base)31:24 Be16 1 yP” Base) 23:16| (Base) 15:00 (Limib 15:00 


图 6-12 保护 模式 的 段 描述 符 位 功能 说 明 图 


从 图 6-12 中 可 知 ， 保 护 模式 的 段 描述 符 共 占用 8 B 的 内 存 空间 ， 其 中 不 仅 包 含 段 基地 址 和 段 长 度 ， 


还 包含 若干 个 


属性 标志 位 来 描述 这 个 段 的 功能 。 表 6-10 详 细 介绍 了 段 描 述 符 各 标志 位 的 含义 。 


表 6-10 ”上 段 描述 符 的 标志 位 功能 说 明 表 


缩写 功能 描述 
L 在 保护 模式 下 ， 此 位 保留 使 用 ， 设 置 为 0 即 可 
AVL 此 位 被 系统 软件 使 用 ， 通 常情 况 下 设置 为 0 


段 基 地 址 ( Base ) ” 段 基地 址 是 段 的 起 始 地 址 , 它 是 一 个 由 3 段 区 域 拼接 而 成 的 32 位 线性 地 址 。Intel 建 议 将 段 基 地 址 按 


D/B 


DPL 


16 B 对 齐 以 保证 处 理 器 的 高 速 执 行 
此 位 用 于 标识 代码 段 的 操作 数位 宽 , 或 者 栈 段 的 操作 数位 宽 以 及 上 边界 (32 位 代码 /数据 段 应 该 为 
1，16 位 代码 /数据 段 应 该 为 0 ) 
口 可 执行 代码 段 ， 此 位 指定 有 效 地 址 和 操作 数 的 默认 宽度 。 置 位 时 默认 使 用 32 位 地 址 、32 位 或 8 
位 操作 数 ; 复位 时 默认 使 用 16 位 地 址 、16 位 或 8 位 操作 数 。 前 级 66h 可 调整 默认 操作 数 ， 而 前 
级 67h 可 调整 有 效 地 址 宽度 
口 栈 段 (SS 寄存 器 中 的 数据 段 ) ， 此 位 指定 栈 指针 的 默认 操作 数 。 置 位 时 默认 使 用 32 位 栈 指针 
(ESP ) ,复位 时 默认 使 用 16 位 栈 指针 ( SP ) 。 如 果 栈 段 是 向 下 扩展 的 数据 段 ， 此 位 指定 栈 段 
的 上 边界 
口 向 下 扩展 的 数据 段 ， 此 位 指定 上 边界 位 宽 。 置 位 时 上 边界 是 FFFFFFFFh (4 GB ) ,复位 时 上 
边界 是 FFFFh (64 KB ) 
段 描述 符 的 特权 级 〈 优先 级 ) ， 特 权 级 范围 0~3，0 为 最 高 特权 级 
指定 段 限 长 的 颗粒 度 。 置 位 时 以 4 KB 作为 颗粒 度 ， 复 位 时 以 字 节 作为 颗粒 度 
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( 续 ) 
缩写 功能 描述 
段 长 度 (Limit) ”记录 段 限 长 ，Limit 区 域 通过 2 部 分 组 成 一 个 20 位 的 长 度 值 。 处 理 器 将 根据 G 标 志 位 来 解释 段 限 长 : 


位 G 标 志 位 ， 段 长 度 为 4KB~4 GB; 复位 G 标 志 位 ， 段 长 度 为 1 B~1 MB 
了 表示 段 已 在 内 存 中 ,如 果 段 寄存 器 加 载 一 个 不 在 内 存 中 的 段 描述 符 ( P=0 ) 将 会 触发 #8NP 异 常 。 在 
复位 此 标志 位 的 情况 下 ， 操 作 系统 可 自由 使 用 其 他 可 用 的 段 描述 符 区 域 
S 站 定 段 描述 符 的 类 型 ， 置 位 为 代码 数据 段 ， 复 位 为 系统 段 
Type 指定 段 / 门 描述 符 的 类 型 ， 此 位 对 S 标 志 位 作 进 一 步 解释 


经 过 表 6-10 对 描述 符 各 标志 位 的 解释 后 ， 相 信 读 者 可 以 根据 自己 的 想法 配置 出 段 描 述 符 的 诸多 标 
志 位 。 但 由 于 Type 标 志 位 区 域 可 指定 多 种 描述 符 类 型 ,下 面 将 结合 本 系统 源码 对 Type 标 志 位 区 域 做 补 
充 讲解 。 

@ 代码 段 描述 符 

如 果 段 描述 符 的 S 标 志 位 与 第 43 位 (位 于 Type 标志 位 区 域内 ) 同时 被 置 位 ， 那 么 这 个 段 描述 符 的 
类 型 为 代码 段 描述 符 。 代 码 段 描述 符 的 Type 标志 位 区 域 (第 40~42 位 ) 可 组 合成 多 种 代码 段 类 型 ， 详 
细 的 Type 标志 位 区 域 组 合 请 参见 表 6-11 。 


表 6-11 代码 段 描述 符 的 Type 标志 位 区 域 组 合 表 


Type 区 域 
43 42 41 40 功 能 
1 C R A 
1 0 0 0 非 一 致 性 、 不 可 读 、 未 访问 
1 0 0 1 非 一 致 性 、 不 可 读 、 已 访问 
1 0 1 0 非 一 致 性 、 可 读 、 未 访问 
1 0 1 1 非 一 致 性 、 可 读 、 已 访问 
1 1 0 0 一 致 性 、 不 可 读 、 未 访问 
1 1 0 1 一 致 性 、 不 可 读 、 已 访问 
1 1 1 0 一 致 性 、 可 读 、 未 访问 
1 1 1 1 一 致 性 、 可 读 、 已 访问 


表 6-11 中 涉及 的 C (一 致 性 )、R (可 读 ) 以 及 A (已 访问 ) 三 个 标志 位 的 具体 说 明 如 下 。 

口 A 标 志 位 〈Accessed， 已 访问 )。 它 记录 代码 段 是 否 已 被 访问 过 ， 当 A=1 时 表示 代码 段 已 被 访 
问 过 ， 当 A=0 时 表示 代码 段 未 被 访问 过 。 处 理 器 只 负责 置 位 此 标志 位 ， 并 不 负责 复位 ， 从 而 只 
能 借助 程序 手动 将 其 复位 。( 建议 在 修改 A 和 和 P 标 志 位 时 使 用 LOCK 前 级 锁 总 线 。 ) 

口 R 标 志 位 〈Readable， 可 读 )。 可 执行 程序 虽然 可 以 被 处 理 器 运行 ， 但 如 果 想 读 取 程 序 段 中 的 

数据 就 必须 置 位 此 标志 位 。 当 然 ， 可 执行 程序 段 始 终 不 能 写 人 数据。 在 操作 特权 级 允许 的 前 提 

下 ， 我 们 可 以 将 CS 段 寄 存 器 作为 操作 前 缀 ， 或 将 代码 段 描述 符 载 人 到 数据 段 寄 存 咒 ， 来 读 取 

代码 段 中 的 数据 。 
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口 C 标 志 位 《Conforming， 一 致 性 )。 代 码 段 可 分 为 一 致 性 代码 段 和 非 一 致 性 代码 段 ， 人 处 理 器 通 


过 此 标志 位 可 以 进行 标识 。 一 个 低 特权 级 的 程序 ( 代码 段 ) 可 执行 或 跳 转 至 一 个 高 特权 级 (或 
相同 特权 级 ) 的 一 致 性 代码 段 ， 并 在 执行 高 特权 级 代码 段 的 过 程 中 保持 低 特权 级 的 CPL 不 变 ， 


即 不 会 因为 代码 段 进 入 高 特权 级 而 更 新 CPL 值 。 如 果 程 序 想 要 跳 转 至 一 个 不 同 特权 级 的 非 一 致 


性 代码 段 ， 除 非 使 用 调用 门 或 者 任务 门 ， 否 则 将 会 触发 #GP 异 


的 ， 这 意味 着 它们 不 能 被 低 特权 级 的 程序 访问 。 


常 。 所 有 的 数据 段 都 是 非 一致 性 


代码 清单 6-1 是 我 们 之 前 编写 的 引导 加 载 程序 ， 其 中 定义 了 一 个 全 局 描述 符 表 LABEL_GDT 和 代码 


段 描 述 符 LABEL_DESC_CODE32。 标识 符 selectorcode32 是 代码 段 描述 符 LABEL_DESC_CODE32 的 选 


择 子 ; 标识 符 catPtr 是 一 个 48 位 伪 描述 符 ， 稍 后 它 将 借助 代码 1gat [catPtr] 把 GDT 加 载 到 GDTR 


寄存 器 。 


代码 清单 6-1 第 6 章 \ 程 序 \ 程 序 6-1\bootloader\loader.asm 


[SECTION gdt] 


LABEL_GDT : dd 0;Q 
LABEL_DESC_CODE32: dd Ox0000FFFF, Ox00CF9AO0O0 
LABEL_DESC_DATA32: dq Ox0000FFFF, Ox00CF9200 
GdtLen equ $ - LABEL_ GDT 
GdtPptr dw GdtLen - 1 
dq LABEL_GDT 
SelectorCode32 equ LABEL_DESC_CODE32 - LABEL_GDT 
SelectorData32 equ LABEL_DESC_DATA32 - LABEL_GDT 
lgdt [GdtPtr 


在 这 段 程序 中 , 代码 段 描述 符 LABEL_DESC_CODE32 的 数值 为 0x00CF9A000000FFFE 根据 图 6-12 


描绘 的 段 描 述 符 位 功能 信息 ， 我 们 可 将 此 段 描述 符 数 值 拆 解 成 表 6-12 所 示 的 位 图 对 照 信息 。 


表 6-12 ”代码 段 描 述 符 实例 位 图 对 照 表 


位 图 范围 功 能 数值 (HEX) 数值 解释 

0 15 段 长 度 ( 15:00 ) FFFF 段 长 度 4 GB 

16~31 段 基地 址 ( 15:00 ) 0000 段 基地 址 位 于 线性 地 址 0 处 
32~39 段 基地 址 ( 23:16 ) 00 段 基 地 址 位 于 线性 地 址 0 处 
40~43 Type 区 域 A 非 一 致 性 、 可 读 、 未 访问 
44 S 和 尺码 段 

45~46 DPL 00 0 特权 级 

47 P 1 已 在 内 存 中 

48~51 段 长 度 ( 19:16) 了 段 长 度 4 GB 
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( 续 ) 
位 图 范围 功 能 数值 (HEX) 数值 解释 
52 AVL 9 软件 可 用 位 
53 L 0 忽略 
54 D/B 全 32 位 数据 段 
55 G 1 段 限 长 的 颗粒 度 为 4 KB 
56~63 段 基地 址 (31:24 ) 00 段 基 地 址 位 于 线性 地 址 0 处 


根据 表 6-3 可 以 很 清晰 地 看 出 ， 这 个 代码 段 覆 盖 了 整个 线性 地 址 空间 ( 0~4 GB )， 而 且 该 代码 段 是 
一 个 0 特权 级 的 非 一 致 性 、 可 读 、 未 访问 段 。 

@ 数据 段 描 述 符 

如 果 段 描述 符 的 S 标 志 位 处 于 置 位 状态 ， 第 43 位 〈 位 于 Type 标志 位 区 域内 ) 处 于 复位 状态 ， 那 么 
这 个 段 描述 符 的 类 型 为 数据 段 描述 符 。 数 据 段 描述 符 的 Type 标志 位 区 域 〈 第 40~42 位 ) 可 用 于 修饰 数 
据 的 延伸 方向 和 读 写 权限 ， 详 细 的 Type 标志 位 区 域 组 合 如 表 6-13 所 示 。 


表 6-13 ”数据 段 描述 符 的 Type 标志 位 区 域 组 合 表 


Type 区 域 
43 42 41 40 功 能 
0 E W 
0 0 0 0 向 上 扩展 、 只 读 、 未 访问 
0 0 0 向 上 扩展 、 只 读 、 已 访问 
0 0 1 0 向 上 扩展 、 可 读 写 、 未 访问 
0 0 1 向 上 扩展 、 可 读 写 、 已 访问 
0 1 0 0 向 下 扩展 、 只 读 、 未 访问 
0 1 0 向 下 扩展 、 只 读 、 已 访问 
0 1 1 0 向 下 扩展 、 可 读 写 、 未 访问 
0 1 1 向 下 扩展 、 可 读 写 、 已 访问 


对 表 6-13 中 涉及 的 E (扩展 方向 )、W (可 读 写 )、A (已 访问 ) 三 个 标志 位 的 具体 说 明 如 下 。 

口 E 标 志 位 〈Expansion-direction， 扩 展 方 向 )。 此 标志 位 指示 数据 段 的 扩展 方向 ， 当 E=1 时 表示 
向 下 扩展 ， 当 E=0 时 表示 向 上 扩展 ， 通 常情 况 下 数据 段 向 上 扩展 。 

口 W 标 志 位 (Write-enbale， 可 读 写 )。 它 记录 着 数据 段 的 读 写 权 限 ， 当 W=1 时 可 进行 读 写 访 问 ， 
当 W=0 时 只 能 进行 读 访问 。 

口 A 标志 位 《Accessed， 已 访问 )。 它 的 功能 与 代码 段 描 述 符 中 的 已 访问 标志 位 A 功能 相同 ， 即 
记录 数据 段 是 否 被 访问 过 。 

在 代码 清单 6-1 中 还 定义 了 一 个 数据 段 描述 符 ， 其 数值 为 0x00CF92000000FFFF。 这 也 是 Linux 2.6.0 
内 核 中 定义 的 描述 符 ( 代码 段 和 数据 段 ) 数值 。 根 据 图 6-12 描 绘 的 段 描述 符 位 功能 信息 ， 我 们 同样 可 将 
数据 段 描述 符 数值 拆 解 成 如 表 6-14 所 示 的 位 图 对 照 信息 。 
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表 6-14 ”数据 段 描述 符 实例 位 图 对 照 表 
位 图 范围 功能 数值 (HEX) 数值 解释 
0~15 段 长 度 ( 15:00 ) FFFF 段 长 度 4 GB 
16~31 段 基地 址 ( 15:00 ) 0000 段 基地 址 位 于 线性 地 址 0 处 
32~39 段 基 地 址 (23:16 ) 00 段 基地 址 位 于 线性 地 址 0 处 
40~43 Type 区 域 2 向 上 扩展 、 可 读 写 、 未 访问 
44 S . 数据 段 
45~46 DPL 00 0 特权 级 
47 P 1 已 在 内 存 中 
48~51 段 长 度 ( 19:16 ) 段 长度 4 GB 
52 AVL 0 软件 可 用 位 
53 L 0 忽略 
54 D/B : 默认 操作 数 和 默认 地 址 宽度 
55 G 1 段 限 长 的 颗粒 度 为 4 KB 
56~63 段 基 地 址 ( 31:24 ) 00 段 基 地 址 位 于 线性 地 址 0 处 


根据 表 6-5 可 以 很 清晰 地 看 出 ， 这 是 一 个 覆盖 了 整个 线性 地 址 空间 ( 0~4 GB ) 的 数据 段 ， 而 且 


该 


数据 段 是 一 个 0 特权 级 的 非 一 致 性 ( 数据 段 必 须 是 非 一 致 性 的 )、 向 上 扩展 、 可 读 写 、 未 访问 段 。 


系统 段 描述 符 


加 细 


段 描述 符 的 S 标 志 位 处 于 复位 状态 ， 那 么 这 个 段 描述 符 的 类 型 为 系统 段 描述 符 。 系 统 段 描述 
符 的 Type 标志 位 区 域 可 定义 12 种 类 型 的 系统 段 描述 符 ， 详 细 的 Type 标志 位 


区 域 组 合 如 表 6-15 所 示 。 


表 6-15 ”系统 段 描述 符 的 Type 标 志 位 区 域 组 合 表 
Type 区 域 

43 42 人 41 40 人 

0 0 0 0 保留 

0 0 0 16 位 TSS 段 描述 符 ( 有效 的 ) 
0 0 1 0 LDT 段 描述 符 

0 0 1 16 位 TSS 段 描述 符 ( 使 用 中 ) 
0 1 0 0 16 位 调用 门 描述 符 

0 1 0 任务 门 描述 符 

0 1 1 0 16 位 中 断 门 描述 符 

0 1 1 16 位 陷阱 门 描述 符 

1 0 0 0 保留 

1 0 0 1 32 位 TSS 段 描述 符 ( 有效 的 ) 
1 0 1 0 保留 

1 0 1 1 32 位 TSS 段 描述 符 〈 使 用 中 ) 
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( 续 ) 
Type 区 域 功 能 
43 42 41 40 
1 1 0 0 32 位 调用 门 描 述 符 
1 1 0 1 保留 
1 1 1 0 32 位 中 断 门 描述 符 
1 1 1 1 32 位 陷阱 门 描 述 符 
本 节 先 介绍 LDT 段 描述 符 、TSS 描 述 符 、 调 用 门 描述 符 三 种 系统 段 描 述 符 。 


(1) LDT 有 段 描 述 符 

LDT 曾 在 6.4.1 节 中 介绍 过 ， 它 的 段 描述 符 用 于 记录 LDT 表 的 位 置 、 长 度 和 访问 权限 等 信息 ， 其 位 
功能 与 TSS 描 述 符 相 同 。 这 里 再 补充 一 点 : LDT 可 在 各 程序 或 任务 间 起 到 隔离 作用 。 操 作 系 统 使 用 其 
他 方法 同样 可 以 起 到 程序 间 的 隔离 作用 ， 例 如 为 每 个 任务 创建 独立 的 页 表 结 构 等 。 本 书 操作 系统 也 不 
会 借助 LDT 来 隔离 任务 。 

(2) TSS 描 述 符 

TSS 用 于 保存 任务 的 处 理 器 状态 信息 。 和 其 他 的 段 一 样 ， 处 理 器 必须 借助 TSS 描 述 符 才 能 对 任务 
状态 段 进行 访问 和 管理 。 图 6-13 描 绘 了 TSS 描 述 符 的 位 功能 。 


TSS 描 述 符 
5655545352 51 484746 454443 40 39 32 31 1615 0 
几 鞭 A 段 长 度 D 几 其 站 几 其 几 
段 基地 址 Glololvjtinibglp| P lol Type 段 基 地 址 段 基 地 址 段 长 度 
(Base) 31:24 L| 19:16 L 1|0 B| 1 (Base) 23:16 (Basse) 15:00 (Limit) 15:00 
图 6-13 TSS 描述 符 的 位 说 明 图 


从 图 6-13 可 以 看 出 ，TSS 描 述 符 与 其 他 段 描述 符 的 格式 基本 相似 ， 这 里 只 特殊 说 明 一 下 B 标 志 位 
( Busy )。B 标 志 位 指示 任务 是 否 处 在 忙 状态 ， 一 个 处 于 忙 状 态 的 任务 表明 它 正 在 运行 或 已 经 挂 起 。 

TSS 描 述 符 只 能 保存 在 GDT 内 , 不 可 存放 于 LDT 或 IDT 中 ,任务 寄存 器 ( Task Register, TR ) 与 LDTR 
寄存 器 的 结构 非常 相似 ， 只 不 过 TR 任务 寄存 器 保存 的 是 TSS 段 选择 子 以 及 TSS 描 述 符 信息 。 如 果 试 图 
将 TSS 段 选择 子 加 载 到 段 寄 存 器 都 将 触发 #GP 异 常 ; 而 访问 一 个 TI 标志 位 被 置 位 的 TSS 段 选择 子 都 将 触 
发 #GP 异 常 (使 用 cALL 或 JMP 指 令 ) 或 #TS 异 常 (使 用 IRET 指 令 )。 

TSS 段 主要 用 于 任务 切换 (或 特权 级 切换 ) 时 ,保存 处 理 器 的 寄存 器 状态 ， 以 及 切换 至 对 应 的 
特权 级 栈 空间 ， 从 而 使 得 任务 返回 时 能 够 还 原 执行 现场 。 图 6-14 是 一 个 32 位 的 任务 状态 段 的 内 部 结 
构 。( 16 位 的 TSS 段 只 用 在 Intel 286 处 理 中 。 ) 

TSS 被 分 为 两 部 分 : 动态 区 域 和 静态 区 域 。 当 任务 在 切换 过 程 中 挂 起 时 ， 处 理 咒 会 将 执行 现场 保 
存在 动态 区 域内 ， 表 6-16 归 纳 了 TSS 的 动态 区 域 。 
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LDT 段 选择 子 
GS 
FS 


ESI 64 
EBP 60 
ESP 56 
EBX 52 
EDX 48 
ECX 44 
EAX 40 

EFLAGS 36 
EIP 32 


CR3(PDBR) 


SS0 8 
ESP0 4 
| 
[国保 留 
图 6-14” 32 位 TSS 结 构 说 明 图 
表 6-16 TSS 的 动态 区 域 功能 说 明 表 
处 理 器 执行 环境 功能 描述 

通用 寄存 器 EAX、ECX、EDX、EBX、ESP、EBP、ESI 和 EDI 寄 存 器 值 
段 选择 子 保存 在 ES、CS、SS、DS、FS 和 GS 寄 存 器 中 的 段 选择 子 
EFLAGS 标 志 寄 存 器 EFLAGS 标 志 寄 存 器 值 
EIP 指 令 寄 存 器 EIP 指 令 指 针 寄存 器 值 
上 一 个 任务 (TSS 段 选择 子 ) 前 一 个 任务 的 段 选择 子 〈 在 使 用 调用 、 中 断 或 异常 进行 任务 切换 时 被 设置 ， 使 


、 


jIRET 指 令 可 切换 回 原 任务 ) 
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当 任 务 在 切换 过 程 中 挂 起 时 ， 处 理 器 只 会 读 取 静态 区 域 的 数据 ， 并 不 会 更 新 (改变 ) 静态 区 域 中 
的 数值 ， 表 6-17 总 结 出 了 TSS 的 静态 区 域 。 


表 6-17 TSS 的 静态 态 区 域 功能 说 明 表 


处 理 器 执行 环境 功能 描述 
LDT 段 选择 子 局 部 描述 符 表 LDT 的 段 选择 子 
CR3 控 制 寄 存 器 CR3 寄 存 器 值 ( 页 目录 的 物理 基地 址 ) 
栈 指针 〈 特权 级 0~2 ) 习 标 特权 级 的 栈 空间 ( 栈 段 选择 子 和 段 内 偏 移 地 址 ) 
T 标 志 位 (Debug Trap ) 王 务 切换 时 的 调试 标志 位 ( T=1 会 触发 调试 异常 ) 
1/O 位 图 基地 址 IO 许可 位 图 和 中 断 重 映射 位 图 在 TSS 段 中 的 起 始 地 址 


此 处 的 栈 空间 是 静态 的 ， 它 不 会 因 任务 切换 而 发 生 改 变 ， 但 SS 和 ESP 寄 存 器 值 将 会 随 着 任务 的 切 
换 而 被 更 新 。 

对 于 处 理 器 级 的 任务 切换 而 言 ， 它 只 能 在 满足 以 下 四 种 条 件 之 一 时 才 会 发 生 。 

(a) 当前 程序 通过 JMP 或 cALL 指 令 跳 转 至 GDT 中 的 TSS 描 述 符 时 ， 任 务 切换 将 会 发 生 。 

(b) 当前 程序 通过 JMP 或 cALL 指 令 跳 转 至 GDT 或 LDT 中 的 任务 门 段 描述 符 时 , 任务 切换 将 会 发 生 。 

(c) 如 果 一 个 IDT 表 项 使 用 任务 门 描述 符 来 保存 中 断 或 异常 处 理 程序 ,那么 在 触发 中 断 或 者 异常 时 
任务 切换 将 会 发 生 。 

(d) 如 果 当 前 任务 的 EFLAGS .NT 标志 位 被 置 位 ， 那 么 在 执行 IRET 指 令 时 任务 切换 将 会 发 生 。 

除 上 述 4 种 硬件 级 任务 切换 方法 外 ， 程 序 还 可 使 用 软件 逻辑 来 实现 任务 切换 。 诸 如 采用 独立 页 表 
空间 切换 方式 (通过 切换 页 表 以 及 JMP 指 令 来 切换 任务 ) 的 Linux 系 统 内 核 ， 它 只 借助 TSS 的 静态 区 域 
为 特权 级 提供 栈 空间 ， 而 任务 的 执行 现场 将 通过 手动 方式 保存 于 栈 或 PCB ( 进程 控制 结构 体 ) 中 。 

(3) 调用 门 描述 符 

调用 门 可 让 不 同 特权 级 间 的 程序 实现 受 控 切 换 ， 它 们 通常 用 于 受 特 权 级 保护 的 操作 系统 或 程序 
中 ， 图 6-15 是 调用 门 描 述 符 ( Call Gate Descriptor ) 的 位 功能 说 明 。 


63 484746454443 4039 3736 32 
D 
段 内 偏 移 P| P lol Type | 0 参数 个 数 
31:16 L ] lolo 
31 1615 0 
段 选择 子 I 
图 6-15 ”调用 门 描述 符 的 位 功能 说 明 图 


调用 门 的 一 个 显著 特点 是 借助 CALL 指 令 穿 过 调用 门 可 访问 更 高 特权 级 ( CPL>=DPL ) 的 代码 段 ， 
如 果 目 标 代码 段 是 非 一 致 性 的 ， 则 栈 切 换 会 发 生 。( 一 致 性 代码 段 不 会 改变 CS 寄存 器 的 CPL 值 。 ) 在 
发 生 特权 级 切换 时 ， 必 定 会 伴随 着 栈 切 换 ， 而 且 栈 特权 级 将 与 CPL 特 权 级 保持 一 臻 。JMP 指 令 只 能 穿 


过 相同 特权 级 ( CPL=DPL ) 的 非 一 致 性 代码 段 , 但 cALL 与 JMP 指 令 却 都 可 以 访问 更 高 特权 级 的 一 致 性 
代码 段 。 表 6-18 是 调用 门 描述 符 的 各 位 功能 说 明 。 
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表 6-18 ”调用 门 描 述 符 的 位 功能 说 明 表 


位 名 功能 描述 

段 选择 子 指定 段 选择 子 

段 内 偏 移 段 内 偏 移 量 ( 指定 程序 和 人口 地 址 ) 
DPL 描述 符 特 权 级 

P 指定 调用 门 描述 符 是 否 有 效 
参数 个 数 发 生 栈 切换 时 需要 复制 的 参数 数量 


除 上 述 系 统 描述 符 外 ， 还 有 陷阱 门 、 


! 断 门 以 及 任务 门 等 描述 符 较 为 常用 。 由 于 它们 均 可 作为 


断 描 述 符 表 项 使 用 ， 故 此 将 其 放 在 下 节 的 中 断 处 理 机 制 中 讲解 更 为 适合 。 


6.4.3 ”保护 模式 的 中 断 /异常 处 理 机 制 


至 于 中 断 / 异 常 的 捕获 、 人 处 型 
绍 处 理 器 体系 结构 下 的 中 断 / 异 常 管理 机 制 。 
中 断 /异常 用 于 实时 监控 操作 系统 、 人 处 型 
理 右 捕获 到 中 断 /异常 后 ， 将 会 强 


将 


1 岂 


以 及 相关 


吊 挂 起 当前 程序 
i 异常 看 过 一 种 服务 或 者 函数 进行 处 


0 当 处 到 


务 ， 使 程序 不 失 连 续 性 地 执行 ， 就 仿佛 从 未 发 生 过 中 断 / 异 常 一 样 。 


而 异常 只 能 在 检测 到 处 到 
常 、 页 错误 异常 和 机 器 内 部 错误 异常 等 。 
每 种 体系 结构 都 会 根据 处 理 器 中 断 / 异 常 的 触发 条 件 ; 
常 进行 唯一 的 标识 ， 
理 程序 的 入 口 地 址 。 
留 使 用 (不 要 使 用 保留 的 向 量 号 )， 剩 余 32~255 号 向 量 将 
从 表 4-2 可 知 ， 中 断 和 异常 共用 同一 个 IDT， 前 32 项 
理 程序 。 用 户 可 自由 为 外 部 硬件 设备 指派 


一 个 门 描述 符 数 组 ( 每 个 门 描述 符 
不 同 。 由 于 中 断 /异常 


述 符 。 图 6-16 撒 绘 了 


中 断 可 在 程序 执行 任务 时 候 触 发 ， 它 可 以 来 自 一 个 外 部 硬 伯 


各 其 归 类 ， 


念 ， 曾 在 本 书 4.4 节 、4.6 节 中 有 所 介绍 ， 


本 节 将 侧重 于 介 


器 和 程序 的 运行 ， 它 是 真实 存在 于 处 理 器 中 的 事件 。 当 处 
(或 任务 ) 转 而 执行 中 断 / 异 常 处 理 程序 ， 因 此 可 以 
程序 执行 完毕 ， 处 理 器 会 唤醒 被 挂 起 的 工程 或 任 


F 设 备 请 求 ， 也 可 以 来 自 INT n 指 令 。 
器 执行 故障 时 和 触发， 处理 器 可 检测 的 异常 种 类 有 很 多 ， 诸 如 通 


用 保护 性 异 


并 使 用 数字 对 同一 类 型 的 中 断 / 异 


这 个 标识 数字 通常 叫 作 向 量 号 。 处 理 器 可 借助 向 量 号 从 IDT 中 索引 出 中 断 /异常 处 


向 量 号 的 数值 范围 是 0~255， 其 中 0~31 号 向 量 被 Intel 处 理 器 作为 异常 向 量 号 或 保 


向 量 的 上 限 是 256 项 ， 


占 8 B )， 其 


作为 中 断 向 量 号 供用 户 使 用 。 

用 于 索引 异常 处 理 程序 ， 其 他 项 用 于 索引 中 断 处 
! 汤 向 量 号 ， 这 也 是 外 部 硬件 设备 与 处 理 器 的 主要 通信 方式 。 
IDT 借 助 门 描述 符 将 中 断 /异常 向 量 号 与 处 理 程序 关联 起 来 ， 这 就 像 GDT 与 LDT 的 关系 一 样 。IDT 是 
一 个 表 项 是 有 效 的 ， 并 非 NULL 描 述 符 ， 这 与 GDT 略 有 
因此 IDT 不 能 包含 超过 256 个 门 描 述 符 , 但 可 以 少 于 256 个 门 描 
! 汤 向 量 号 在 IDT 中 的 索引 过 程 。 
IDT 可 以 保存 在 线性 地 址 的 任何 位 置 ， 但 为 了 使 处 理 


需 达 到 最 佳 缓冲 性 能 ， 请 尽量 将 IDT 按 照 8 B 


边界 对 齐 。 由 于 每 个 IDT 表 项 占 8 B， 那 么 其 长 度 为 8N - 1 ( N 为 表 项 数 )， 对 于 GDT 、LDT 以 及 TSS 的 
长 度 计算 皆 是 如 此 。 
如 图 6-16 所 示 ， 处 理 器 借助 IDTR 寄 存 器 可 定位 出 IDT 的 位 置 ， 但 在 使 用 [DT 前 ， 必 须 使 用 LIDT 指 
令 (SIDT 指 令 用 于 保存 IDTR 寄 存 器 值 ) 将 IDT 的 线性 基地 址 (32 位 ) 和 长 度 ( 16 位 ) 加 载 IDTR 寄 存 
，LIDT 指 令 只 能 在 cPL=0 时 执行 。 通 常情 况 下 ，IDT 创 建 于 操作 系统 初始 化 过 程 。 


器 
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47 1615 0 
基地 址 长 度 


2 DT 目标 代码 段 


段 内 偏 移 中 断 处 理 程序 
述 符 扫 ” 蕊 (二 一 


述 
16 
述 


8 


0 


31 0 


段 基地 址 


图 6-16” ”中断 向 量 号 的 索引 过 程 示意 图 


IDT 的 表 项 是 由 门 描述 符 组 成 ， 可 使 用 陷阱 门 、 中 断 门 和 任务 门 三 类 门 描 述 符 。 这 三 种 门 描述 符 
与 上 节 的 调用 门 描述 符 极其 相似 ， 下 面 将 逐一 讲解 它们 的 特殊 功能 。 

(1) 陷阱 门 描 述 符 和 中 断 门 描述 符 
! 肠 门 描述 符 ( Interrupt Gate Descriptor ) 和 陷阱 门 描述 符 ( Trap Gate Descriptor ) 在 位 图 结构 上 ， 
与 调用 门 描述 符 非常 相似 ， 它 们 都 包含 一 个 远 跳 转 地 址 ( 段 选择 子 和 有 段 内 偏 移 )。 这 个 远 跳 转 地 址 为 
处 理 器 提供 中 断 / 异 常 处 理 程序 的 入 口 地 址 。 图 6-17 是 中 断 门 描 述 符 和 隐 阱 门 描 述 符 的 位 功能 说 明 ， 其 
中 的 D 标 志 位 用 于 指示 门 描 述 符 的 数据 位 宽 。 


中 断 门 描述 答 
63 48 47 46 45 4443 4039 3736 3231 16 15 0 
nL D 
| 自选 择 子 i 
. L DIll110 . 


图 6-17 ”陷阱 门 描述 符 和 中 断 门 描述 符 的 位 功能 说 明 


人 区 
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中 断 门 描述 符 和 陷阱 门 描述 符 的 不 同 之 处 ， 主 要 体现 在 处 理 器 对 IF 标志 位 (EFLAGS 标 志 寄存 器 ) 
的 操作 上 。 当 处 理 器 通过 中 断 门 描述 符 执行 中 断 /异常 处 理 程序 时 ， 处 理 器 会 复位 正 标志 位 以 防止 其 他 
中 断 请 求 干扰 当前 中 断 处 理 程序 的 执行 。 处 理 器 会 在 随后 执行 的 TIRET 指 令 中 ， 还 原 保 存在 栈 中 的 
EFLAGS 寄 存 器 〈 包 括 IF 标志 位 ) 值 。 然 而 ， 当 处 理 器 通过 陷阱 门 描述 符 执行 中 断 /异常 处 理 程序 时 ， 
将 不 会 对 下 标志 位 进行 操作 (不 会 复位 正 标志 位 ) 

(2) 任务 门 描述 符 

任务 门 描述 符 〈Task Gate Descriptor ) 可 在 任务 切换 过 程 中 提供 一 些 间接 的 保护 措施 。 与 其 他 门 
描述 符 相 比 ， 任 务 门 描述 符 的 位 结构 更 为 简单 ， 它 仅 包含 了 任务 状态 段 描述 符 的 段 选择 子 和 属性 信 


息 。 图 6-18 是 任务 门 描 述 符 的 位 功能 说 明 ， 其 段 选择 子 的 RPL 区 域 不 会 被 使 用 。 
6063 4847 46454443 4039 32 31 16 15 0 
D 
P| P lol mpe TSS 段 选 择 子 
L | |ollloll 
国保 久 
图 6-18 ”任务 门 描述 符 的 位 功能 说 明 图 


任务 门 描述 符 的 DPL 区 域 控 制 着 访问 TSS 描 述 符 的 特权 级 。 当 程序 (或 任务 ) 借助 cALL 或 JMP 指 令 
穿 过 任务 门 访问 目标 程序 时 ，CS 寄 存 器 的 CPL 值 与 任务 门 描述 符 选择 子 的 RPL 值 在 数值 上 ， 必 须 小 于 或 
等 于 任务 门 描述 符 的 DPL 值 , ( 注意: 当 使 用 任务 门 描述 符 时 , 目标 TSS 描 述 符 的 DPL 标 志 位 将 不 起 作用 。 ) 
任务 门 描 述 符 可 在 GDT、LDT 或 IDT 内 创建 ,但 其 段 选择 子 必须 指向 GDT 的 TSS 描 述 符 ( TSS 描述 
符 只 能 在 GDT 中 创建 )。 图 6-19 描 绘 了 各 类 描述 符 表 、 任 务 门 描 述 符 、TSS 描 述 符 以 及 任务 状态 段 之 间 
的 关系 。 


LDT GDT TSS 
任务 门 描述 符 
任务 门 杠 述 符 。 | 一 一 一 中 TSs 摘 述 符 
IDT 


任务 | 门 找 述 符 


图 6-19 ”基于 任务 门 描述 符 的 任务 切换 示意 图 
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在 Linux 内 核 


1， 无 论 何 种 中 断 或 异常 ， 它 们 只 使 用 


任务 门 描述 符 ， 而 且 IA-32e 模 式 也 已 取消 了 任务 门 描述 符 这 一 功能 。 


至 此 ， 保 护 模 式 的 段 管理 机 制 已 经 讲解 完毕 。 


情况 极 少 ， 


6.4.4 ”保护 模式 的 页 管理 机 制 


在 保护 模式 下 ， 处 理 器 可 借助 段 管理 机 制 将 逻辑 地 址 转换 成 线性 地 址 。 当 开启 页 管理 


在 不 开启 分 页 机 人 
管理 机 制 将 逻辑 地 址 转换 为 物理 地 址 (此 时 线性 地 址 与 物理 上 


! 靳 门 描述 符 和 陷阱 门 描述 符 ， 从 未 使 用 过 


出 的 前 提 下 ， 处 理 器 可 直接 通过 段 
也 址 相等 )。 不 过 ， 仅 开启 段 管理 机 制 的 
因为 缺少 页 管理 机 制 的 物理 内 存 管理 起 来 十 分 困难 。 


机 制 后 ， 处 


理 带 必须 经 过 页 管理 机 制 才 能 将 线性 地 址 转换 为 物理 地 址 ， 这 一 转换 过 程 必须 经 过 多 层级 页 表 索 引 才 


能 访问 到 目标 物理 地 址 或 WO 设备 内 存 。 


在 页 管理 机 制 的 各 层级 页 表 中 ,不 仅 保存 着 目标 物理 页 的 基地 址 ， 还 记录 着 访问 物 到 
及 缓存 类 型 等 属性 信息 。 软 件 可 通过 Mov cR0 指 令 置 位 PG 标志 位 来 使 能 页 管理 机 制 。 


始 进 行 页 转换 。 


制 前 ， 请 确保 CR3 控 制 寄存 器 中 已 经 载 人 了 页 目录 ( 顶层 页 表 ) 的 物理 基地 址 ， 人 处 型 


页 的 权限 以 
在 开启 页 管理 机 


器 将 从 页 目录 开 


保护 模式 共 支 持 32 位 分 页 模式 、PSE 模 式 和 PAE 模 式 
逐一 介绍 。 
1. 32 位 分 页 模式 


32 位 分 页 模式 是 保护 模式 的 基础 页 管理 模式 ， 置 位 CR0.PG 标 志 位 将 进入 32 位 分 页 模式 。 相 信 有 基 


三 种 页 管理 模式 ， 下 面 将 对 这 三 种 模式 进行 


础 功底 的 读者 已 经 从 其 他 相关 书籍 或 资料 中 学 习 过 这 种 页 管理 模式 。 说 它 基础 是 因为 在 32 位 分 页 模式 


下 ,线性 地 址 位 宽 与 物理 地 址 位 宽 同 为 32 位 ，32 位 分 页 模式 并 未 扩展 物理 地 址 的 寻 


4 KB 物理 页 


物理 地 址 


比较 适合 初学 者 进行 学 习 。 图 6-20 描 绘 了 32 位 分 页 模式 的 地 址 映射 关系 。 
线性 地 址 
31 2221 12 11 0 
页 目录 项 索引 页 表 项 索引 页 内 偏 移 
| 12 
10 RE 
10 | 
PDT 
一 2 PTE 20 
| PDE 20 
大 一 | 
32 
CR3 控制 寄存 器 
图 6-20 ”32 位 分 页 模式 的 地 址 映射 图 


上 | 上 能力， 相对 来 说 ， 
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根据 上 图 描绘 的 地 址 映射 关系 可 知 ，32 位 分 页 模式 将 32 位 线性 地 址 分 割 成 三 段 ， 使 用 两 级 页 表 进 行 
管理 ， 其 中 第 31 到 22 位 用 于 索引 页 目录 表 ( Page Directory Table，PDT ) 的 表 项 ， 第 21 到 12 位 用 于 索引 页 
表 (Page Table，PT )， 第 11 到 0 位 用 于 索引 页 内 偏 移 (Page Offset )。 此 处 的 页 目录 表 PDT 和 页 表 PT 各 包 
含 1024 个 表 项 ， 每 个 表 项 占用 4 B 空 间 ， 共 占用 4 KB 的 内 存 空间 。 因 为 一 个 物理 页 容量 为 4 KB ， 两 级 页 
表 结 构 共 可 容纳 4KBx1024x1024 =4 GB 的 存储 空间 ， 这 个 地 址 范围 恰好 覆盖 整个 4 GB 线 性 地 址 空间 。 

在 CR3 控 制 寄 存 器 (也 叫 页 目录 基地 址 寄存 器 ，Page Directory Base Register, PDBR ) 以 及 其 下 
的 两 级 页 表 表 项 中 ， 不 光 包 含 物理 页 的 基地 址 ， 同 时 还 包含 控制 访问 权限 与 缓存 类 型 等 属性 信息 ， 
图 6-21 描 述 了 32 位 分 页 模式 的 页 表 项 位 功能 。( Intel 已 对 32 位 分 页 模式 的 页 表 项 标志 位 进行 了 扩展 ， 
使 得 此 图 的 页 表 项 标志 位 与 其 他 书籍 所 描述 略 有 不 同 。 ) 


页 目 站 CR3 


R 

1| PDE: 

页 表 的 物理 基地 址 (PT) W 页 表 

PDE: 
不 存在 

PI | PPIUR| | prE: 
4 KB 物理 页 的 基地 址 a 向 涪 内 WI/ ee 4KB 物 理 页 

PTE: 

不 存在 

图 6-21 32 位 分 页 模式 的 页 表 项 位 功能 说 明 图 


表 6-19 是 对 32 位 分 页 模式 页 表 项 的 位 功能 介绍 ， 此 表 描 述 的 位 功能 通用 适用 于 其 他 页 管理 模式 
( 包括 IA-32e 模 式 的 页 管理 模式 )。 


表 6-19 32 位 分 页 模式 的 页 表 项 标志 位 功能 说 明 表 


国 国 无 效 


功能 描述 
缩写 全 称 位 置 办 能 描述 | 
物理 页 存在 标志 位 
了 Present 0 
不 存在 存在 
读 写 操作 标志 位 

R/W Read/Write 1 - 

只 读 页 可 读 写 页 

访问 模式 标志 位 
U/S User/Supervisor 2 一 
超级 模式 用 户 模 式 
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( 续 ) 
四 功能 描述 
缩写 全 称 位 置 
0 1 
页 级 写 穿 标志 位 
PWT Page-Level Write-Through 3 a 
可 写 ( Write-Back ) 写 穿 ( Write-Through ) 
页 级 禁止 缓存 标志 位 
PCD Page-Level Cache Disable 4 一 一 一 机 
页 可 以 缓存 页 不 能 缓存 
访问 标志 位 
A Accessed 5 Re ee 
未 访问 已 访问 
主页 标志 位 
D Dirty 6 
干净 已 脏 
PAT Page-Attribute Table 7 页 面 属性 表 标 志 位 
全 局 页 标志 位 
G Global 8 3 
局 部 页 面 全 局 页 面 

PS Page Size - 物理 页 容量 标志 位 


这 些 标志 位 描述 了 页 管理 模式 的 大 部 分 功能 ， 其 中 的 P 标 志 位 用 于 指示 物理 页 是 否 存在 ， 如 果 访 
问 不 存在 的 物理 页 则 会 触发 #PF 异 常 ， U/S 标 志 位 用 于 限定 物理 页 的 访问 模式 ， 超 级 模式 只 允许 特权 级 
为 0、1、2 的 程序 访问 ， 而 用 户 模 式 则 允许 任何 特权 级 的 程序 访问 ; PWT 标 志 位 和 PCD 标 志 位 还 会 受 
到 cR0 .cD 标志 位 的 影响 ， 当 CD 标志 位 被 置 位 时 PWT 标 志 位 与 PCD 标 志 位 将 忽略 。 对 于 A 标志 位 与 D 
标志 位 ， 处 理 器 只 能 置 位 它们 ， 无 法 对 其 进行 复位 。 当 cR4.PGE-1 时 (CPUID.01h:EDX[13] .PGE 位 
可 检测 是 否 支 持 PGE 功 能 )， 更 新 CR3 控 制 寄 存 器 可 使 TLB 内 的 全 局 页 表 项 CA 不 
被 刷新 。 PS 标志 位 用 于 指明 页 表 项 索引 的 是 物理 页 还 是 次 级 页 表 ( 目前 32 位 分 页 模式 暂 无 PS 标志 位 )。 
PAT 标 志 位 扩展 了 PCD 标 志 位 和 PWT 标 志 位 的 功能 ， 并 与 MTRR 寄 存 器 协同 工作 ， 以 指定 访问 物理 内 
存 的 类 型 。 
IA32_PAT 寄 存 器 用 于 设置 页 属性 PAT 的 内 存 类 型 ， 它 位 于 MSR 寄 存 器 组 的 277h 地 址 处 。IA32_PAT 
寄存 器 包含 8 个 属性 区 域 ( PA0~PA7 )， 每 个 属性 区 域 的 低 3 位 用 于 指明 内 存 类 型 ， 高 5 位 保留 使 用 ， 必 
须 设置 为 0。 这 8 个 属性 区 域 可 配置 成 任意 内 存 类 型 ， 图 6-22 是 IA32_PAT 寄 存 器 的 位 功能 说 明 。 


一 


63 5958 5655 $5150 48 47 4342 40 39 35 34 32 
7 6 5 PA4 

31 2726 24 23 1918 16 15 1110 87 32 0 
3 2 1 PAO 

国 国 保留 


图 6-22 ”PAT 表 的 存储 位 功能 说 明 图 
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当 处 理 咒 上 电 或 Reset 后 ，PAT 表 还 原 为 默认 内 存 类 型 ， 请 见 表 6-20。 通 过 WRMSR 指 令 可 修改 PAT 


表 的 内 存 类 型 。 
表 6-20 ”PAT 表 的 默认 内 存 类 型 
PAT PCD PWT PAT 项 内 存 类 型 
0 0 0 PATO WB 
0 0 PATI1 WT 
0 1 0 PAT2 UC- 
0 1 PAT3 UC 
1 0 0 PAT4 WB 
1 0 PATS WT 
| 1 0 PAT6 UC- 
1 1 PAT7 UC 
当 处 理 器 不 支持 PAT 功 能 ( CPUID.01h:EDX[16] .PAT 位 可 检测 是 否 支 持 PAT 功 能 ) 时 ， 则 只 


PCD 标 志 位 和 PWT 标 志 位 有 效 ， 这 两 个 标志 位 可 组 合成 PAT0~PAT3 这 4 种 内 存 类 型 。 关 于 此 表 中 提 及 
的 WB、WT 以 及 UC 等 内 存 类 型 ， 请 详 见 表 6-21 的 解释 。 


表 6-21 ”内存 类 型 描述 表 
PAT 值 。” 缩写 内 存 类 型 功能 描述 

00h UC Uncacheable 内 存 不 可 缓存 , 对 设备 内 存 IO 了 映射 非常 有 用 , 使 用 在 物理 内 存 中 将 导致 执 
行 效率 降低 

Olh WC WriteCombining 内 存 不 可 缓存 ， 也 不 用 强制 遵循 处 理 器 总 线 的 一 致 性 协议 。 写 操作 可 能 会 
延迟 执行 ， 以 减少 内 存 访 问 次 数 

02h 一 保留 无 

03h 二 保留 无 

04h WT WriteThrough 读 写 均 被 缓存 ， 读 操作 先 访问 缓存 行 ， 写 操作 将 同时 写 入 到 缓存 行 和 内 存 

05h WP WriteProtected 读 操作 先 访问 缓存 行 ， 写 操作 将 会 扩散 到 总 线 上 的 所 有 处 理 器 ， 使 处 理 器 
的 对 应 缓存 行 失效 

06h WB WriteBack 整个 读 写 操作 丝 在 缓存 行 中 进行 。 写 操作 将 延迟 更 新 到 内 存 ， 从 而 减少 内 
存 访问 次 数 

07h UC- Uncache 与 UC 功能 相同 ,但 可 在 MTRR 寄 存 器 中 使 用 WC 窗 盖 

08~FFh 一 保留 无 

表 6-21 中 的 内 存 类 型 是 Intel 处 理 器 提供 的 可 用 内 存 类 型 及 类 型 编码 值 ， 目 前 一 共有 5 种 内 存 类 型 ， 
其 中 值得 一 提 的 是 UC 和 UC-， 这 两 个 类 型 同 为 禁止 缓存 ， 但 UC 的 限制 性 更 强 一 些 ， 而 UC- 可 被 WC 禾 
羔 ， 在 Intel 官 方 白皮书 中 特意 使 用 单词 strong 来 修饰 UC 内 存 类 型 。 


通过 对 32 位 分 页 模式 的 学 习 ， 相 信 读 者 已 经 对 页 管理 


机 制 有 了 初步 认 知 。 现 以 Linux 2.6.0 内 核 


的 初始 化 程序 为 例 ， 看 看 代码 是 如 何 使 用 32 位 分 页 模式 来 管理 页 表 的 ， 详 细 内 核 源 代 码 实现 如 代码 


清单 6-2。 
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代码 清单 6-2 arch/i386/kernel/head.S 


/* 
* TInitialize page tables 
让 
#define INIT_ PAGE_TABLES \ 
mov1 Spbpg0 - __PAGE OFFSET, %edi; \ 
/* "007" doesn't mean with license to kill, but PRESENT+RW+USER */ \ 


movl] $007, %Seax; \ 
2 “StoOSLly. N 
adqd SOx1000, %Seax; \ 


cmp Sempty_zero_page - PAGE_OFFSET, %edi; \ 
jne 2b; 
/大 
* This is initialized to create an identity-mapping at 0-8M (for bootup 
* purposes) and another mapping of the 0-8M area at virtual address 
* PAGE_OFFSET. 
*/ 
.Org Ox1000 


ENTRY (swapper_pg_dir) 

.long 0x00102007 

.long 0x00103007 

.fill BOOT_ USER_PGD_ PTRS-2,4,0 
/* default: 766 entries */ 

.long 0x00102007 

.long 0x00103007 

/* default: 254 entries */ 

.fi11 BOOT_ KERNEL_PGD_ PTRS-2,4,0 


/大 

* The page tables are initialized to only 8MB here - the final Page 
* tables are set up later depending on memory size. 

WA 

.Org Ox2000 

ENTRY (pg0) 


.org 0x3000 
ENTRY (pg1) 


/大 

* empty_zero_page must :immediately follow the page tables ! (The 
* initialization loop counts until empty_zero_page) 

#7 

.Org Ox4000 

ENTRY (empty_zero_page) 


在 代码 清单 6-2 中 ， 页 目录 表 PDT 位 于 物理 地 址 1000h 处 ， 并 将 物理 地 址 2000h 和 3000h 处 的 两 个 
页 表 分 别 映射 到 线性 地 址 0 处 和 线性 地 址 3 GB 处 ， 这 两 个 页 表 项 的 属性 值 为 007 ( 页 已 存在 、 可 读 写 、 
用 户 访 问 模式 )。INIT_PAGE_TABLES 宏 模块 将 物理 地 址 0 处 开始 的 2048 个 物理 页 面 ( 代码 
Sempty_zero_page - PAGE_OFFSET 的 计算 结果 为 2048 ) 保存 在 物理 地 址 2000h 处 的 页 表 中 ， 并 设 


TI 
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2. PSE 模 式 


PSE 模 式 是 32 位 分 页 模式 的 扩展 ， 它 允许 处 理 器 在 保护 模式 下 使 用 4 MB 的 物理 


置 成 与 页 目录 表 项 相同 的 属性 值 (007 )。 


CPUID.01h:EDX[3] .PSE 位 可 检测 是 否 支 持 PSE 功 能 ， 置 位 CR4.PSE 标 志 位 将 开启 PSE 模 式 。 
器 还 支持 PSE-36 模 式 ( CPUID.01h:EDX[17] .PSE-36 位 可 检测 是 否 支 持 PSE-36 功 能 )， 那 么 在 开启 PSE 


模式 的 同时 也 会 开启 PSE 
而 将 原本 32 位 的 物理 地 址 寻 址 能 力 提升 至 36 位 ， 乃 至 40 位 ， 寻 址 位 数 取 决 于 处 理 器 的 最 高 物理 可 寻 址 位 


宽 值 MAXPHYADDR 。 由 
6-23 描 绘 了 PSE 模 式 的 地 1 


-36 模 式 。PSE-36 模 式 能 够 让 处 理 器 在 PSE 模 式 下 使 用 超过 4 GB 的 物理 


页 。 通 过 


如 果 处 理 


内 存 ， 进 


于 PSE 模 式 依然 身 处 保护 模式 


图 6-23 中 的 地 址 映 身 


， 其 线性 地 址 寻 址 能 力 仍然 保持 4 GB 不 变 , 图 


址 映射 关系 。 
线性 地 址 
31 2221 0 
页 目录 项 索引 | 页 内 偏 移 
2 4 MB 物理 页 
PDT 
10 | 物理 地 址 
PDE 
一 | PDE.PS = 1 As 
32 
CR3 控 制 寄 存 器 
图 6-23 ”PSE 模 式 的 地 址 映射 图 
对 关系 与 32 位 分 页 模式 非常 相似 , 但 是 由 于 PSE 模 式 只 使 用 一 级 页 表 映 射 ( 32 
位 分 页 模式 采用 二 级 页 表 上 映射 )， 从 而 使 得 PSE 模 式 的 页 内 偏 移 ， 由 32 位 分 页 模式 的 12 位 


位 ， 其 中 的 低 12 位 依然 
图 6-24 描 述 了 支持 PSE-36 模 式 的 页 表 项 位 功能 。 
PSE-36 模 式 的 各 属性 位 厂 


通过 CPUID.80000008h:EAX[7:0] 可 获得 处 理 器 最 高 物理 可 寻 址 位 宽 值 MAXPHYADDR， 
桌面 级 处 理 器 普遍 支持 36 位 物理 地 址 位 宽 ， 服 务 器 级 处 理 央 普遍 支持 40 位 物理 地 址 位 宽 。 现 在 ，52 位 
物理 地 址 位 宽 是 64 位 体系 结构 的 最 大 值 ， 但 没有 一 款 处 理 器 可 支持 这 一 物理 地 址 位 宽 。 


CPUID 指 令 可 查询 到 处 至 


] 于 表示 页 表 项 属性 ， 而 剩余 10 位 则 用 于 扩展 页 面 基地 址 位 宽 和 页 表 属 性 


增长 至 22 


O 


E 功 能 和 作用 上 ， 与 32 位 分 页 模式 相同 ， 这 里 就 不 再 做 过 多 讲解 ， 请 读者 
自行 对 照 学 习 。 此 处 将 着 重 讲解 一 下 处理 器 最 高 物理 可 寻 址 位 宽 值 MAXPHYADDR 的 获得 方法 。 


目前 Intel 


尽管 使 用 


理 内 存 可 以 使 ) 


器 最 高 物理 可 寻 址 位 宽 值 MAXPHYADDR, 但 并 不 代表 硬件 平台 有 那么 多 物 
j， 同 时 还 必须 兼顾 BIOS 中 断 服 务 程序 INT 15h, AX=E820h 提 供 的 物理 内 存 信息 。 
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| 


页 目录 的 物理 基地 址 (PDT) 


4MB 物 理 页 的 基地 4MB 物 理 页 的 基 
(31:22) 地 址 (39:32) 


国 四 无效 
国 四 保留 


图 6-24 ”PSE-36 模 式 的 页 表 项 位 功能 说 明 图 


PSE-36 模 式 的 物理 可 寻 址 位 宽 上 限 为 40 位 ， 即 使 MAXPHYADDR 值 超过 40， 处 理 器 也 只 能 使 用 低 
40 位 进行 物理 内 存 寻 址 。 

3. PAE 模 式 

PAE 模 式 是 区 别 于 32 位 分 页 模式 和 PSE 模 式 的 一 种 新 型 页 管理 模式 。 当 处 理 器 支持 PAE 模 式 
( CPUID.01h:EDX[6].PAE 位 可 检测 是 否 支 持 PAE 模 式 ) 时 ， 置 位 CR4.PAE 标 志 位 将 开启 PAE 模 式 。PAE 
模式 将 32 位 线性 地 址 从 原 有 的 二 级 页 表 映 射 扩展 为 三 级 ， 每 个 页 表 项 也 从 原来 的 32 位 (4 B ) 增长 至 
64 位 (8 B )。 虽然 64 位 页 表 项 可 轻松 容纳 52 位 物理 地 址 位 宽 ， 但 页 目录 表 PDT 与 页 表 PT 依 然 使 用 4 KB 
大 小 ， 这 就 使 得 页 表 项 数 从 原来 的 1024 项 降 为 512 项 ， 引 发 的 连锁 反应 是 线性 地 址 索引 范围 从 10 位 缩 
短 为 9 位 。PAE 模 式 为 了 延续 使 用 32 位 线性 地 址 ， 特 采用 图 6-25 所 示 的 地 址 映射 关系 。 


31 30 29 21 20 2 1] 
PDPT 黄 故 咒 索 中 | 真正 江 项 索引 真 去 项 索 呈 页 内 侧 移 


”2 MB 物理 页 的 页 内 仿 移 [20:0] 


12 
4 


图 6-25” ”PAE 模式 的 地 址 映射 图 


从 PAE 模 式 的 地 址 映射 图 中 发 现 ，PAE 模 式 在 页 目录 表 PDT 与 页 表 PT 的 基础 上 ， 又 引入 了 页 目录 
指针 表 ( Page Directory Pointer Table，PDPT )。PDPT 只 有 4 个 表 项 ， 每 个 表 项 占 8 B 空 间 共 占用 32 B， 
这 4 个 表 项 用 于 索引 线性 地 址 的 第 31 到 30 位 ， 图 6-26 描 述 了 PAE 模 式 的 页 表 项 位 功能 。PAE 模 式 最 高 可 
支持 52 位 的 物理 可 寻 址 位 宽 ， 实 际 物理 可 寻 址 位 宽 还 请 参考 MAXPHYADDR 值 。 


KB 物理 页 的 页 内 偏 移 [11:0 


4 KB 物理 页 
2 MB 物理 页 


CR3 控制 寄存 器 


物理 地 址 空间 
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2|212|2121111111 
4|3121110 1918 1716 


PDPT 页 表 的 物理 基地 址 


页 目录 的 物理 基地 址 (PDT) 


2MB 物 理 页 的 基地 址 


页 表 的 物理 基地 址 (PT) 


4KB 物 理 页 的 基地 址 


注 : M 是 MAXPHYADDR 的 缩写 。 国 因 无效 国 时 因 保留 
图 6-26 PAE 模式 的 页 表 项 位 功能 说 明 图 


从 图 6-26 可 知 ，CR3 寄 存 器 的 位 功能 已 经 与 前 两 种 页 管理 模式 截然 不 同 。 PAE 模 式 依然 只 使 用 CR3 
控制 寄存 器 的 低 32 位 ， 从 而 导致 PDPT 表 只 能 保存 于 低 4 GB 物理 内 存 中 ， 而 且 PDPT 页 的 基地 址 还 必须 
按 32 B 边 界 对 齐 。 不 仅 如 此 ， 页 表 项 在 沿用 原 有 属性 标志 位 的 基础 上 ， 定 义 了 新 的 属性 标志 位 XD 
( Execution Disable， 禁 止 执行 标志 位 )。XD 标 志 位 的 功能 描述 如 下 : 用 于 禁止 处 理 器 从 物理 页 中 获取 
指令 ,通过 cPUID.80000001h:EDX[20] .XD 位 可 查询 是 否 支持 此 功能 。 在 支持 XD 功能 的 前 提 下 ,和 置 
位 IA32_EFER.NXE 标 志 位 (IA32_EFER 寄 存 器 位 于 MSR 寄 存 器 组 ) 将 开启 XD 功能 ， 否 则 XD 位 保留 
且 必 须 为 0。 如 果 置 位 PDE .xD 标 志 位 或 PTE .XD 标志 位 ， 那 么 对 应 的 物理 页 不 可 执行 。 

至 此 ， 相 信 读 者 已 经 对 段 管理 机 制 和 页 管理 机 制 有 了 清晰 的 认识 。 但 对 于 种 类 繁多 、 逮 辑 关系 复 
杂 的 段 页 结构 而 言 ， 各 类 地 址 空间 的 转换 过 程 势必 会 给 读者 造成 困扰 ,下 一 节 将 会 帮助 读者 缕 清 它们 
之 间 的 关系 。 


6.4.5 ”保护 模式 的 地 址 转换 过 程 


保护 模式 的 有 效 地 址 往往 需要 经 过 一 个 或 几 个 过 程 才 会 转换 为 物理 地 址 ， 图 6-27 将 保护 模式 的 地 
址 转换 关系 以 图 的 形式 直观 展现 出 来 。GDT 作 为 段 管 理 机 制 的 核心 结构 ,一 切 功 能 都 是 从 此 表 引 申 而 
来 ， 随 后 处 理 器 再 根据 段 描述 符 的 功能 特点 经 过 一 次 或 几 次 转换 ， 最 终 从 有 效 地 址 转换 为 线性 地 址 。 
在 关闭 页 管理 机 制 的 情况 下 ， 线 性 地 址 直接 映射 为 物理 地 址 。 如 果 开 启 页 管理 机 制 ， 那 么 处 理 器 会 根 
据 页 管理 模式 将 线性 地 址 切割 成 固定 大 小 的 地 址 段 。 经 过 多 层 页 表 的 逐 级 索引 ， 最 终 处 理 需 将 锁定 目 
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py xz 人 -已 浊 
标 物理 页 和 页 内 偏 移 ， 把 两 者 相 加 方 可 确定 指令 或 数据 所 在 的 物理 地 址 。 
关闭 
四 辑 地 址 一 一 一 一 一 一 | ”自从 册 栅 出 > 线性 邮 二: 上 页 管理 人 制 | 一 一 一 一 一 一 一 一 物理 地 引 
3 1 
段 选择 fT 段 内 俩 移 
1 线性 地 址 空间 物理 地 址 空间 
线性 地 址 
nm 0 GDT IT me Ee We] 页 四 仿 移 
可 视 部 分 隐 疲 总 分 二 
二 天 # 了 ”让 地 古代 度 | Ts | 
R 一 | 下 LE | 
一 一 一 一 一 | RN 和 | 如 一 五 一 | 身手 玉生 [34 9 一 物 H _ 
LDT he 16 
8 8 了 和 | 物理 地 址 
NULL 段 描述 锌 0 0 PDT 一 | PIT 
1615 0 省 视 部 分 隐 疲 部 分 ] 段 地 址 空间 
大 地 于 ”| 代 度 可 区 # ”大 地 用 ”| 长 度 一 一 Ws 
Sa LDIR 一 一 一 一 
ET 
中 扬 撒 述 符 老 罕 存 器 A 
| 1 撒 过 符 形 罕 作 只 DIR BR tw 
JET ”| RE 
iT 
尼 卫生 还 符 壤 
门 描述 秆 3 上 一 一 一 
1 段 内 个 移 
3 0 
1 I 1 
A 了 
图 6-27 ”保护 模式 的 地 址 转换 过 程 示意 图 


举 一 个 简单 的 例子 ， 在 C 语 言 程序 中 有 个 名 为 Function 的 函数 ， 其 首 地 址 (有 效 地 址 ) 为 1200h 
(使 用 取 地 址 符 & 可 获得 函数 的 起 始 地 址 ) 假设 代码 清单 6-3 是 此 程序 的 段 页 结构 。 那 么 函数 Function 
将 由 GDT 的 LABEL_DESC_CODE32 段 描述 符 负责 管理 ， 其 段 选择 子 是 Selectorcode32 (数值 为 
08h )， 使 用 汇编 代码 jmp SelectorCode32:Function 或 jmp 08h:1200h 可 跳 转 至 Function 函 数 
中 执行 。 此 时 ， 处 理 器 通过 段 选择 子 08h 从 代码 段 描述 符 LABEL_DESC_cODE32 中 取得 段 基 地 址 (位 
于 线性 地 址 0n 处 )， 随 后 再 加 上 函数 Function 的 有 效 地 址 〈 函数 起 始 地 址 在 段 内 的 偏 移 )， 最 后 计算 
出 函数 Function 的 起 始 地 址 位 于 线性 地 址 1200h 处 。32 位 分 页 模式 将 线性 地 址 00001200nh 分 割 成 
000h (PDT 表 的 第 0 项 )、001h (PD 表 的 第 1 项 )、200h ( 页 内 偏 移 200h ) 三 段 。 逐 级 检测 页 表 映 射 可 
知 ， 函 数 Function 保 存 于 物理 页 面 4000h~4fffh 范 围 内 ， 再 加 上 页 内 偏 移 200h 后 ， 函 数 Function 
最 终 确定 起 始 于 物理 地 址 4200h 人 处 。 


代码 清单 6-3 ”保护 模式 的 段 页 结构 示例 代码 


4 


人 is 三 GDT 
LABEL_GDT: dq 0,0 
LABEL_DESC_CODE32: dd Ox0000FFFF, 0x00CF9A00 
LABEL_DESC_DATA32: dq Ox0000FFFF, OxX00CF9200 
GdtLen equ $ - LABEL_GDT 
GdtPptr dw GdtLen - 1 

dq LABEL_GDT 


SelectorCode32 equ LABEL_DESC_CODE32 - LABEL_GDT 


226 第 6 章 ”处理 器 体系 结构 


//======= init page (32-Bit Paging) 
org 0x1000 
PDT 

dd 0x2007 


times STidd. 0 
org 0x2000 


dd 0x5007 
dd 0x4007 
dd 0x7007 


从 图 6-27 中 可 以 看 出 段 管理 机 制 比 页 管理 机 制 复 杂 得 多 ， 在 保护 模式 下 ， 这 两 种 管理 机 制 看 起 来 
占有 的 比重 非常 不 匀称 。 保 护 模 式 的 段 管 理 机 制 非常 复杂 ， 不 但 会 影响 处 理 器 的 性 能 ， 同 时 也 加 重 了 
编程 的 复杂 度 。 为 了 更 高 效 地 执行 程序 以 及 简单 的 编程 逻辑 ，IA-32e 模 式 ( 64 位 模式 ) 在 简化 段 管理 
机 制 的 同时 ， 还 深化 页 管理 机 制 。 


6.5 ”|A-32e 模式 


伴随 着 32 位 保护 模式 的 地 址 空间 ( 线性 地 址 空间 和 物理 地 址 空间 ) 瓶颈 愈演愈烈 ， 以 及 其 结构 爱 
肿 带 来 的 性 能 损耗 ， 新 的 IA-32e 模 式 应 运 而 生 。IA-32e 模 式 在 原 有 32 位 保护 模式 的 基础 上 进行 了 诸多 
升级 、 改 造 与 整合 ， 可 近似 视 为 一 种 全 新 的 64 位 处 理 器 体系 结构 。 


6.5.1 1IA-32e 模式 概述 


IA-32e 模 式 是 Intel 为 64 位 处 理 吉 设计 的 全 新 运行 模式 ， 它 通常 也 被 叫 作 长 模式 ， 通 过 cPUID 
80000001h:EDX[29] .LM 位 可 检测 处 理 器 是 否 支持 IA-32e 模 式 。IA-32e 模 式 扩 展 于 原 有 32 位 保护 模 
式 ， 它 包含 兼容 模式 和 64 位 模式 两 种 子 运 行 模式 ， 其 中 的 兼容 模式 用 于 兼容 之 前 的 32 位 保护 模式 ， 使 
得 处 理 器 无 需 改 动 64 位 运行 环境 ( 如 寄存 器 值 、 段 结构 、 页 表 项 结构 等 ) 即 可 运行 32 位 程序 ( 通过 段 
描述 符 的 L 标 志 位 ) 值得 注意 的 是 ， 如 果 在 兼容 模式 下 触发 系统 异常 或 中 断 ， 处 理 器 必须 切换 至 64-bit 
Mode 模 式 才能 处 理 。 
虽然 LA-32e 模 式 的 线性 地 址 位 宽 64 位 , 但 其 线性 寻 址 能 力 只 有 48 位 , 其 低 48 位 用 于 线性 地 址 寻 址 ， 
高 16 位 将 作为 符号 扩展 (将 第 47 位 数值 扩展 至 第 63 位 ， 即 全 为 0 或 全 为 1 )， 此 种 格式 的 地 址 被 称 为 
Canonical 地 址 。IA-32e 模 式 下 ， 只 有 Canonical 地 址 空间 是 可 用 地 址 空间 ， 而 Non-Canonical 空 间 则 属于 
无 效 地 址 空间 ， 图 6-28 描 述 了 64 位 线性 地 址 空间 的 功能 划分 情况 。 

如 图 6-28 所 示 ，Canonical 型 线性 地 址 区 间 0x00000000,00000000~0x00007FFF, FFFFFFFF 和 
0xFFFF8000,00000000~0xFFFFFFFF,FFFFFFFF 是 程序 的 可 用 区 域 , 而 Non-Canonical 型 线性 地 址 区 
间 0x00008000,00000000~0xFFFF7FFF,FFFFFFFF 则 不 可 被 程序 使 用 。 如 果 程 序 试图 访问 
Non-Canonical 型 线性 地 址 区 间 将 会 触发 #GP 或 #SS 等 异常 。 由 于 64-bit Mode 模 式 改 用 Canonical 地 址 空 
间 ， 那 么 其 地 址 空间 转换 过 程 将 变 为 图 6-29 所 示 的 样子 。 
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线性 地 址 空间 
OxFFFFFFFF_FFFFFFFF 
Canonical 
OxFFFF8000_00000000 
OxFFFF7FFF_FFFFFFFF 
63 48 47 0 
符号 扩展 部 分 寻 址 部 分 Non-Canonical 
线性 地 址 
0x00008000_00000000 
0x00007FFF_FFFFFFFF 
Canonical 
0x00000000_00000000 
图 6-28 ”64 位 线性 地 址 空间 的 功能 划分 示意 图 


Y 
段 选 择 了 段 内 傅 移 


线性 地 址 空间 


物 蛙 地址 空间 


Canonical | Canonical 型 线性 地 二 
全 情境 述 符 志 GDT Po 
Sign[ PML4 PDPT PDT PT 页 内 售 移 物理 页 
PT - 
物 由 地 此 
PDT 和 
段 描述 符 2 ee 
Non-Canonical 
PDPT 页 下 项 
PML4 —— 
页 去 项 
抽 雪 项 和 
rz| 线性 地 址 上 
| Canonical 一 物理 页 
段 基 地 赴 自 地 下 空间 


上 一 Ml | 页 签 再 机制 | 
到 6-29 ”IA-32e 模 式 的 地 址 空间 转换 示意 图 


到 6-29 中 的 段 描述 符 已 强制 将 段 基 地 址 和 有 段 限 长 覆盖 到 整个 线性 地 址 空间 ， 使 得 不 易于 管理 的 段 
地 址 空间 扁平 化 、 透 明 化 ， 用 户 不 必 再 关心 段 基 地 址 和 段 长 度 。 不 仅 如 此 ， 段 管理 机 制 的 整体 结构 已 
被 大 幅度 简化 ， 进 而 使 得 性 能 得 到 显著 提升 。 当 64 位 模式 采用 Canonical 型 的 64 位 线性 地 址 后 ， 页 管理 
机 制 也 改 成 4 级 ， 但 只 有 线性 地 址 的 低 48 位 参与 页 表 空 间 检 索 ， 高 16 位 ( 符号 扩展 位 ) 依然 不 参与 页 
表 空 间 检 索 。 而 且 ， 页 管理 机 制 在 支持 4 KB 物理 页 的 基础 上 ， 还 支持 2 MB 和 1 GB 的 物理 页 。 

经 过 上 述 介 绍 ， 相 信 读 者 会 喜欢 这 个 全 新 的 运行 模式 。 那 么 下 面 将 结合 本 系统 代码 ， 讲 解 IA-32e 
运行 模式 。 


TT 
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6.5.2 ”IA-32e 模式 的 段 管理 机 制 


IA-32e 模 式 的 段 管 理 机 制 依然 延续 自 保护 模式 ， 但 经 过 保护 模式 的 洗礼 后 ，IA-32e 模 式 已 对 段 管 
理 机 制 进行 了 升级 、 改 造 和 优化 ， 从 而 使 得 它 在 不 失 兼 容 性 的 同时 ， 显 得 更 加 简洁 、 高 效 、 易 编程 。 

@ 代码 段 描 述 符 

IA-32e 模 式 下 的 代码 段 仍 然 具备 地 址 转换 、 权 限 检测 等 功能 ， 但 是 代码 段 描述 符 的 标志 位 区 域 已 
被 精简 许多 ( 如 段 基 地 址 和 段 限 长 等 区 域 已 被 忽略 ) 只 剩 窗 窗 数 个 标志 位 有 效 。 处 理 器 在 IA-32e 模 式 
下 同样 需要 代码 段 描述 符 和 代码 段 选择 子 来 建立 程序 的 运行 环境 ， 维 护 程序 的 执行 特权 级 。 图 6-30 描 
述 了 IA-32e 模 式 的 代码 段 描述 符 位 功能 。 


L=0 兼容 模式 


段 长 度 段 长 度 | 属性 段 基 地 址 段 长 度 


属性 


64 位 模式 


03 56 5554535251 


D D 
L P| PLDCIRIA 


484746 454443 40 39 16 15 0 


/ 
B L 


Code/Data 标志 位 代码 段 描述 符 ) 
上 S 标志 位 〈 非 系统 段 描述 符 ) 


图 6-30 ”IA-32e 模 式 的 代码 段 描述 符 位 功能 说 明 图 


在 图 6-30 描 述 的 代码 段 结构 中 ，IA-32e 模 式 的 代码 段 描述 符 启 用 了 保护 模式 未 曾 使 用 的 L 标 志 位 
(第 53 位 ) 此 标志 位 用 于 标识 代码 段 的 运行 模式 ( 32 位 兼容 模式 或 64 位 模式 ) 在 IA-32e 模 式 处 于 激活 
( IA32_EFER.LMA=1 ) 状态 下 ,复位 L 标 志 位 将 使 处 理 器 运行 于 32 位 兼容 模式 ， 此 时 的 D 标 志 位 则 用 于 
标识 代码 段 的 默认 地 址 位 宽 和 操作 数位 宽 ，D=0 时 默认 位 宽 是 16 位 ，D=1 时 默认 位 宽 是 32 位 。 当 IA-32e 
模式 处 于 激活 状态 ， 置 位 L 标 志 位 并 复位 D 标 志 位 时 ,代码 段 的 默认 操作 数位 宽 是 32 位 ， 地 址 位 宽 为 64 
位 ， 如 果 D=1 则 触发 #GP 异 常 。 

IA-32e 模 式 的 代码 段 描 述 符 的 各 标志 位 功能 与 保护 模式 相同 ， 此 处 就 不 再 过 多 介绍 了 。 下 面 将 以 
本 系统 的 IA-32e 模 式 代码 段 描述 符 定义 为 例 ， 来 看 看 IA-32e 模 式 代码 段 描述 符 将 会 置 位 哪些 标志 位 ， 
请 参见 代码 清单 6-4。 
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代码 清单 6-4 ”第 6 章 \ 程 序 \ 程 序 6-1\kernel\head.S 


GDT_Table: 
.Guadq 0x0000000000000000 /*0 NULL descriptor O00*/ 
.quad 0x0020980000000000 /*1 KERNEL Code 64-bit Segment 08*/ 
.quad 0x0000920000000000 /*2 KERNEL Data 64-bit Segment 10*/ 
.quad 0x0000000000000000 A/*3 USER Code 32-bit Segment 18*/ 
.quad 0x0000000000000000 /*4 USER Data 32-bit Segment 20*/ 
.quad 0x0020f80000000000 LS ‘USER Code 64-bit Segment 28*/ 
.quaqd 0x0000f20000000000 /*6 USER Data 64-bit Segment 30*/ 
.quad 0x00cf9a000000ffff /*7 KERNEL Code 32-bit Segment 38*/ 
.Guad 0x00cf92000000ffff /*8 KERNEL Data 32-bit Segment 40*/ 
EO BO /*10 ~ 11 TSS (jmp one segment <9>) in long-mode 

128=bit SOY 

GDT_END: 


在 这 个 IA-32e 模 式 的 GDT 定 义 中 ， 不 仅 定 义 了 两 对 64 位 的 代码 段 和 数据 段 ， 还 包含 一 对 32 位 的 代 
码 段 和 数据 段 。 现 以 表 中 第 1 项 代码 段 描述 符 为 例 ， 将 代码 段 描述 符 的 定义 值 0x0020980000000000 
拆 解 成 表 6-22 所 示 的 区 域 位 说 明 表 。 


表 6-22 ”代码 段 描述 符 实例 位 图 对 照 表 


位 图 范围 保护 模式 位 功能 IA-32e 模 式 位 功能 ”数值 (HEX) 数值 解释 
0~15 段 长 度 ( 15:00 ) 忽略 0000 忽略 

16~31 段 基 地 址 (15:00 ) 忽略 0000 忽略 

32~39 段 基地 址 (23:16 ) 忽略 00 忽略 

40~43 Type 区 域 Type 区 域 8 非 一 致 性 、 不 可 读 、 未 访问 
44 S S 时 人 码 段 

45~46 DPL DPL 00 0 特权 级 

47 上 了 1 已 在 内 存 中 

48~51 段 长 度 ( 19:16) 忽略 0 忽略 

52 AVL AVL 0 忽略 

55 G G 0 忽略 

56~63 段 基地 址 (31:24 ) 忽略 on 忽略 


表 6-22 对 代码 段 描述 符 的 解释 一 目 了 然 ， 当 忽略 段 基 地 址 和 有 段 长 度 以 后 ， 段 描述 符 的 配置 过 程 更 
加 简洁 、 直 观 ， 从 而 无 需 再 为 切割 段 基地 址 和 段 长 度 耗 费时 间 。 而 且 在 段 基地 址 强制 设置 为 0 后 ， 程 
序 的 有 将 地址 和 线性 地 址 在 数值 上 是 相等 的 ， 不 论处 理 器 在 地 址 空间 转换 时 是 否 需要 进行 性 能 优化 ， 
但 起 码 在 编程 时 减少 了 许多 地 址 拼接 的 计算 量 。 

@ 数据 段 描 述 符 

数据 段 描述 符 并 未 在 保护 模式 的 基础 上 进行 属性 和 功能 扩展 ， 处 理 器 依然 使 用 8 B 的 段 描述 符 来 描述 
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一 个 数据 段 ， 其 与 代码 段 描述 符 相 同 ， 都 忽略 掉 段 基地 址 和 段 长 度 。 图 6-31 描 述 了 IA-32e 模 式 的 数据 段 
描述 符 位 功能 。( Intel 官 方 白 皮 书 对 IA-32e 模 式 的 数据 段 描 述 符 的 介绍 非常 有 限 ， 此 图 为 个 人 总 结 而 得 。) 


03 16 15 0 


Code/Date 标志 位 (数据 段 描 述 符 ) 
大 保留 S 标志 位 〈 非 系统 段 描述 符 ) 


图 6-31 IA-32e 模 式 的 数据 段 描 述 符 位 功能 说 明 图 


根据 图 6-31 的 描述 可 知 ，IA-32e 模 式 的 数据 段 描 述 符 不 仅 忽略 了 上 段 基地 址 和 上 段 长 度 ， 而 且 L 标 志 
位 、D/B 标 志 位 、G 标 志 位 也 均 不 起 作用 。 依 据 图 中 描绘 的 数据 段 描述 符 位 功能 ， 可 将 代码 清单 6-4 中 
的 数据 段 描 述 符 (第 2 项 ) 定义 值 0x0000920000000000 拆 解 成 表 6-23 所 示 的 区 域 位 说 明 表 。 


表 6-23 ”数据 段 描述 符 实例 位 图 对 照 表 


位 图 范围 保护 模式 位 功能 IA-32e 模 式 位 功能 数值 (HEX) 数值 解释 
0~15 段 长 度 ( 15:00 ) 忽略 0000 忽略 

16~31 段 基地 址 (15:00) ”忽略 0000 忽略 

32~39 段 基 地 址 (23:16) ”忽略 00 忽略 

40~43 Type 区 域 Type 区 域 4 向 上 扩展 、 可 读 写 、 未 访问 
Se 3 人 1 数据 自 

45~46 DPL DPL 00 0 特权 级 

47 P 了 已 在 内 存 中 

48~51 段 长 度 ( 19:16 ) 忽略 0 忽略 

52 AVL AVL 0 忽略 

53 L L 0 忽略 

54 D/B D/B 0 忽略 

55 G G 0 忽略 

56~63 段 基地 址 ( 31:24 ) 忽略 00 忽略 


从 表 6-23 中 的 数据 解释 可 见 ，IA-32e 模 式 的 数据 段 描 述 符 只 有 为 数 不 多 的 几 个 标志 位 有 效 。 对 于 
D/B 标 志 位 的 忽略 问题 ， 可 能 有 些 读者 会 有 疑问 ， 这 是 因为 当 段 基地 址 和 有 段 长 度 覆 盖 整 个 线性 地 址 空 
间 后 ， 数 据 段 的 起 始 地 址 和 扩展 方向 就 变 得 不 再 重要 了 ， 或 者 说 通过 指令 和 程序 来 控制 数据 的 扩展 方 
向 比 使 用 标志 位 更 加 精确 ， 因 此 D/B 标 志 位 是 可 以 忽略 的 。 

@ 系统 段 描 述 符 

IA-32e 模 式 的 系统 段 描述 符 〈 标 志 位 S=0 ) 从 保护 模式 的 8 B 扩 展 为 16 B， 这 主要 源 于 系统 段 描述 
符 的 基地 址 和 偏 移 区 域 从 32 位 扩展 至 64 位 。 不 仅 如 此 ，IA-32e 模 式 还 对 系统 段 描 述 符 的 Type 区 域 进行 
了 精简 。 表 6-24 记 录 了 IA-32e 模 式 文 持 的 系统 段 描述 符 类 型 。 
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表 6-24 ”IA-32e 模 式 的 系统 段 描 述 符 的 类 型 表 


Type 区 域 

43 42 41 40 -Nl 

0 0 0 0 16 B 描 述 符 的 高 8 B 

0 0 0 1 保留 

0 0 1 0 LDT 段 描述 符 

0 0 1 1 保留 

0 1 0 0 保留 

0 1 0 1 保留 

0 1 1 0 保留 

0 1 1 1 保留 

1 0 0 0 保留 

1 0 0 1 64 位 TSS 段 描述 符 ( 有 效 的 ) 
1 0 1 0 保留 

1 0 1 1 64 位 TSS 段 描述 符 〈 使 用 中 ) 
1 1 0 0 64 位 调用 门 描述 符 

1 1 0 1 保留 

1 1 1 0 64 位 中 断 门 描述 符 

1 1 1 1 64 位 陷阱 门 描述 符 


从 表 6-24 可 以 看 出 ，IA-32e 模 式 只 支持 64 位 的 系统 段 描 述 符 。 细 心 的 读者 可 能 会 发 现 ，IA-32e 模 
式 的 系统 段 描 述 符 已 不 再 支持 任务 门 描述 符 ， 进 而 不 再 支持 基于 任务 门 的 任务 切换 。 既 然 少 了 任务 门 
描述 符 , 那么 系统 只 需 创 建 一 个 TSS 来 提供 不 同 特权 级 的 栈 空间 即 可 。 其 实 , 保护 模式 下 的 操作 系统 ， 
大 多 不 会 采用 任务 门 描 述 符 来 实现 任务 切换 ， 而 改 用 软件 逻辑 来 实现 任务 切换 ( 切换 页 表 空间 )， 想 
必 这 是 不 再 支持 任务 门 的 原因 之 一 吧 。 

本 节 依 然 先 介绍 LDT 段 描述 符 、TSS 描 述 符 以 及 调用 门 描述 符 这 三 种 系统 段 描 述 符 ， 其 他 系统 段 
描述 符 将 在 下 一 节 的 中 断 处 理 机 制 中 予以 讲解 。 

(1) LDT 有 段 描 述 符 

IA-32e 模 式 的 LDT 段 描述 符 共 占 用 16 B 的 内 存 空间 ,其 与 TSS 描 述 符 的 位 功能 完全 相同 , 请 读者 根据 
TSS 描 述 符 的 位 功能 自行 学 习 。 就 个 人 观点 而 言 ， 诸 多 系统 内 核 不 会 使 用 LDT， 原 因 可 能 是 : 尽管 使 用 
LDT 和 页 表 均 可 实现 隔离 进程 的 作用 ,但 在 进程 切换 方面 页 表 的 自由 度 更 高 、 方 便 系统 编程 ， 还 能 减少 
处 理 器 性 能 损耗 ， 而 LDT 的 优点 只 是 对 进程 多 一 层 隔离 保护 ， 这 中 间 的 取 售 还 请 读者 自己 把 握 。 

(2) TSS 描 述 符 

IA-32e 模 式 的 TSS 描 述 符 在 系统 中 依然 扮演 着 重要 的 角色 ， 和 其 他 系统 段 描述 符 一 样 ， 它 也 从 
原来 的 8 B 扩 展 至 16 B， 其 低 8 B 与 保护 模式 的 TSS 描 述 符 一 致 ， 而 高 8 B 将 保存 段 基 地 址 的 第 32~63 
位 ， 图 6-32 描 绘 了 IA-32e 模 式 的 TSS 描 述 符 位 功能 。 
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127 109108107 104103 9695 64 
段 基地 址 63:32 8 
63 5655 5453525] 484746454443 4039 3231 1615 0 


地 址 15:00 


S 标 志 位 (系统 段 描述 符 ) 
图 6-32”IA-32e 模 式 的 TSS 描 述 符 位 功能 说 明 图 
图 6-32 的 TSS 描 述 符 位 功能 非常 好 理解 ,而且 功 能 也 并 无 变化 , 但 TSS 的 内 部 结构 却 发 生 革 命 性 的 


变化 。 既 然 TSS 不 再 需要 保存 和 还 原 程序 ( 或 任务 ) 的 执行 现场 环境 ， 那 么 它 只 负责 不 同 特权 级 间 的 


栈 切 换 工 作 。 图 6-33 是 IA-32e 模 式 TSS 的 内 部 结构 。 
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图 6-33 ”IA-32e 模 式 的 TSS 位 说 明 图 
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RSP1 ( 低 32 位 ) 12 
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从 图 6-33 中 可 以 明显 感觉 到 ，IA-32e 模 式 的 TSS 已 经 与 保护 模式 的 TSS 相 差 很 大 ， 相 似 的 地 方 也 仅 
有 各 特权 级 的 栈 指针 (RSP0、RSP1、RSP2 )， 表 6-25 记 录 着 TSS 各 位 的 功能 说 明 。 


表 6-25 TSS 的 位 功能 说 明 表 


缩写 功能 描述 
RSPn Canonical 型 的 栈 指 针 ( 特权 级 0~2 ) 
ISTn Canonical 型 的 中 断 栈 表 ( 共 8 组 ) 
IO 位 图 基地 址 IO 许可 位 图 


注 : n 为 0~7。 


在 IA-32e 模 式 下 ,处 理 咒 允许 加 载 一 个 空 段 选择 子 NULL 段 选择 子 ( 第 0 个 GDT 项 ) 到 除 CS 以 外 的 
段 寄存 器 (3 特权 级 的 SS 段 寄 存 器 不 允许 加 载 NULL 段 选择 子 )。 处 理 器 加 载 NULL 段 选择 子 到 段 寄 存 
器 的 过 程 ， 并 非 读 取 GDT 的 第 0 项 到 段 寄 存 器 ， 而 是 以 一 个 无 效 的 段 描述 符 来 初始 化 段 寄 存 器 。 在 发 
生 特 权 级 切换 时 , 新 的 SS 段 寄存 器 将 强制 加 载 一 个 NULL 段 选择 子 , 而 RSP 将 根据 特权 级 被 赋值 为 RSPn 
(n=0~2 ) 把 新 SS 段 寄 存 器 设置 为 NULL 段 选择 子 是 为 了 完成 远 跳 转 ( far CALL，INTn， 中 断 或 异常 ) 
动作 ， 而 旧 SS 段 寄存 器 和 RSP 将 被 保存 到 新 栈 中 。 

IST ( Interrupt Stack Table， 中 断 栈 表 ) 是 IA-32e 模 式 为 任务 状态 段 引 入 的 新 型 栈 指针 ， 其 功能 与 
RSP 相 同 ， 只 不 过 IST 切换 中 断 栈 指针 时 不 会 考虑 特权 级 切换 。 

(3) 调用 门 描述 符 

调用 门 描 述 符 同 样 从 原 有 的 8 B 扩 展 至 16 B， 其 低 8 B 的 Param Count 位 区 域 已 被 忽略 ， 而 高 8 B 则 
保存 着 程序 入 口 地 址 的 第 31~63 位 。 图 6-34 描 绘 了 IA-32e 模 式 的 调用 门 描述 符 各 位 功能 。 
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图 6-34 ”IA-32e 模 式 的 调用 门 描 述 符 位 功能 说 明 图 

处 理 器 在 执行 LA-32e 模 式 的 调用 门 时 ,将 以 8B 的 数据 位 宽 向 栈 中 压 人 数据 ， 而 且 IA-32e 模 式 的 调 

用 门 也 不 再 支持 参数 传递 功能 。 值 得 一 提 的 是 ，RETEF 指 令 的 默认 操作 数 为 32 位 ， 如 果 要 返回 到 64 位 程 
序 中 ， 则 必须 在 RETF 指 令 前 额外 加 上 指令 前 缀 0x48 ， 否 则 只 能 返回 到 32 位 程序 中 。 
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6.5.3 ”IA-32e 模式 的 中 断 / 异 常 处 理 机 制 


IA-32e 模 式 的 中 断 / 异 常 处 理 机 制 和 保护 模式 的 处 理 机 制 非常 相似 ， 只 不 过 中 断 发 生 时 的 栈 空间 
( SS: RSP ) 保存 工作 已 由 选择 性 ( 特权 级 CPL 变 化 时 保存 ) 保存 ， 改 为 无 条 件 保存 。 与 此 同时 , IA-32e 
模式 还 引入 一 种 全 新 的 中 断 栈 切换 机 制 。 

由 于 IA-32e 模 式 的 系统 段 描述 符 已 不 再 支持 任务 门 描述 符 ， 那么 IDT 仅 剩 下 陷阱 门 描述 符 和 中 晰 
门 描述 符 可 以 使 用 。 图 6-35 是 这 两 个 门 描 述 符 的 位 功能 说 明 。 


eh 9695 64 
段 内 偏 移 63:32 8 
63 484746454443 4039 3736 3534 3231] 1615 0 
段 内 偏 移 局 
31.16 P|P|o| Type | 0o10oIST 段 选择 子 段 内 偏 移 1500 “|0 
L 
加 到 | 保留 


图 6-35 JIA-32e 模 式 的 中 断 门 描述 符 与 陷阱 门 描述 符 位 功能 说 明 图 


从 图 6-35 中 可 以 发 现 , 这 两 个 门 描述 符 均 从 8B 扩 展 至 16B, 它 的 高 8 B 保 存 着 Offset 区 域 的 第 32~63 
位 ， 不 仅 如 此 ， 其 低 8 B 的 第 32~34 位 将 用 于 IST 功能 。 

IST 只 在 IA-32e 模 式 下 有 效 ， 它 为 了 给 不 同 的 中 断 提供 一 个 理想 的 栈 环 境 ， 而 对 原 有 栈 切 换 机 制 进 
行 了 改良 。 程序 通过 IST 功能 可 使 处 理 器 无 条 件 进行 栈 切 换 , 在 IDT 的 任意 一 个 门 描述 符 都 可 以 使 用 IST 
机 制 或 原 有 栈 切 换 机 制 ， 当 IST=0 时 ， 使 用 原 有 栈 切 换 机 制 ， 和 否则 使 用 IST 机 制 。 

IA-32e 模 式 的 TSS 已 为 IST 机 制 提供 了 7 个 栈 指针 ， 供 IDT 的 门 描述 符 使 用 。 图 6-35 中 的 IST 位 区 域 
( 共 3 位 ) 就 用 于 为 中 断 /异常 处 理 程序 提供 IST 栈 表 索引 ， 当 确定 目标 IST 后 处 理 器 会 强制 将 SS 段 寄 存 
器 赋值 为 NULL 段 选择 子 ， 并 将 中 断 栈 地 址 加 载 到 RSP 寄 存 器 中 。 最 后 ,将 原 SS、RSP、RFLAGS 、CS 
和 RIP 寄 存 器 值 压 入 新 栈 中 。 


6.5.4 ”IA-32e 模式 的 页 管理 机 制 


开启 IA-32e 模 式 必须 伴随 着 页 管理 机 制 的 开启 ( 置 位 CR0.PG、CR4.PAE 以 及 IA32 EFER.LME 标 
志 位 )。IA-32e 模 式 的 页 管理 机 制 可 将 Canonical 型 的 线性 地 址 映射 到 52 位 物理 地 址 空间 ( 由 处 理 器 最 
高 物理 可 寻 址 位 宽 值 MAXPHYADDR 决 定 ) 中 , 使 得 IA-32e 模 式 可 寻 址 4PB (2”B ) 的 物理 地 址 空间 ， 
可 寻 址 2356 TB (2%B ) 的 线性 地 址 空间 。 处 理 器 通过 CR3 控 制 寄存 器 保存 的 物理 地 址 ， 可 将 线性 地 址 
转换 成 一 个 多 层级 页 表 结 构 ，IA-32e 模 式 的 页 管理 机 制 共 支持 4 KB 、2 MB 和 1 GB ( cPUID. 
80000001h:EDX[26].1G-Page 位 可 检测 是 否 支 持 1 GB 物理 页 ) 三 种 规格 的 物理 页 容量 。 图 6-36 描 绘 
了 IA-32e 模 式 的 地 址 映射 关系 。 
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图 6-36 ”IA-32e 模 式 的 页 表 地 址 映射 图 


IA-32e 模 式 的 页 管理 机 制 使 用 多 层级 页 表 来 结构 化 线性 地 址 空间 ，CR3 控 制 寄存 器 负责 定位 顶层 
页 表 PML4 ( Page Map Level 4，4 级 页 表 ) 的 物理 基地 址 。 根 据 处 理 器 对 PCIDs 功 能 的 使 能 情况 ，CR3 
控制 寄存 器 将 会 呈现 出 两 套 不 同 的 位 功能 ， 图 6-37 描 述 了 IA-32e 模 式 的 页 表 项 位 功能 。 
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图 6-37 IA-32e 模 式 的 页 表 项 位 功能 说 明 图 
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图 6-37 内 的 众多 标志 位 已 在 保护 模式 中 介绍 过 ， 重 复 的 内 容 就 不 再 过 多 介绍 ， 下 面 重点 讲解 下 
PCIDs 标 志 位 。PCIDs ( Process Context Identifiers ， 程 序 执行 环境 标识 组 ) 功能 ( CPUID.01h:ECX 
[17] .PCID 位 可 检测 是 否 支 持 PCID 功 能 ) 可 使 处 理 器 缓存 多 套 线 性 地 址 空间 ， 并 通过 PCID 加 以 唯一 
标识 。PCID 位 区 域 拥有 12 位 ， 当 置 位 cR4 . PCIDE 标 志 位 时 开启 PCID 功 能 。 在 开启 PCID 功 能 的 前 提 下 ， 
使 用 MOV 指 令 操 作 CR3 控 制 寄 存 器 的 第 63 位 ， 将 会 影响 TLB 的 有 效 性 ( 全 局 页 除外 )。( 请 参考 Intel 官 
方 白皮书 Volume 3 的 4.10.4 节 。 ) 

下 面 将 结合 程序 源 代码 来 看 看 页 表 项 的 配置 过 程 。 代 码 清 单 6-5 是 本 系统 启动 时 预 设 的 初始 页 表 
项 ， 尽 管 这 些 页 表 项 只 使 用 到 IA-32e 模 式 页 管理 机 制 的 基础 功能 ， 但 其 作为 IJA-32e 模 式 页 管理 机 制 的 
学 习 材 料 还 是 非常 不 错 的 。 
代码 清单 6-5 ”第 6 章 \ 程 序 \ 程 序 6-1\kernel\head.S 


movg sO0x101000, Srax 
movg Srax, SCcr3 
/YS 和 SS init page 
align 8 
:wry 0x1000 
PML4E 


.Guad 0x102007 
fl 25578, 0 
.Guad 0x102007 
.£1il11l 255,;8%0 


.Org 0x2000 


.quad 0x103007 /* Ox103003 */ 
:二 了 了 5 站 ;7:8;8 


.Srg 0x3000 


.Guad 0x000087 

.Guad 0x200087 

.Guad 0x400087 

.Guad 0x600087 

.quad 0x800087 /* Ox800083 */ 
.quad 0xe0000087 /*0x a00000*/ 
.Guad 0xe0200087 

.Guad 0xe0400087 

.Guad 0xe0600087 

.quad 0xe0800087 /0OXT000000x/ 
.Guad 0xe0a00087 

.Guad 0xe0c00087 

.Guad 0xe0e00087 

.£1il11l 499,8,0 


这 上段 代码 首先 将 页 表 (PML4 ) 起 始 地 址 按 8 B 边 界 对 齐 , 然后 指定 页 表 PML4、PDPT 和 PD 的 起 始 
地 址 分 别 在 1000h、2000h 以 及 3000h 处 ， 这 些 页 表 的 容量 均 为 4KB 。 本 系统 采用 规格 为 2 MB 容量 的 
物理 页 ， 每 个 页 面 预 设 为 相同 的 属性 值 (用户 访问 模式 、 可 读 写 、 已 存在 )。 在 系统 初始 页 表 期 间 ， 
这 段 代 码 不 仅 映 射 了 物理 内 存 空 间 ， 还 映射 了 设备 内 存 和 寄存 器 空间 。 由 于 引导 加 载 程序 会 将 系统 内 
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核 加 载 到 1 MB 物理 地 址 处 ,而 页 表 PML4 的 起 始 地 址 位 于 内 核 程 序 1000h 偏 移 处 ， 那 么 页 表 PML4 的 物 
理 起 始 地 址 应 该 位 于 100000h + 1000h = 101000h 处 ， 这 也 是 CR3 控 制 寄存 器 的 加 载 值 。 


6.5.5 1IA-32e 模式 的 地 址 转换 过 程 


经 过 前 几 节 对 IA-32e 模 式 的 整体 描述 ， 再 参考 保护 模式 的 地 址 转换 过 程 等 知识 ， 相 信 读 者 学 习 
IA-32e 模 式 的 地 址 转换 过 程 会 比较 轻松 ， 图 6-38 示 意 出 了 IA-32e 模 式 的 地 址 转换 关系 。 虽 然 ILA-32e 模 式 
的 地 址 转换 关系 与 保护 模式 十 分 相似 ,但 仍 有 诸多 不 同 之 处 。 这 些 不 同 之 处 主要 体现 在 线性 地 址 空间 
的 功能 划分 、 页 管理 机 制 的 升级 与 扩展 ， 以 及 段 管理 机 制 的 精简 和 优化 等 方面 。 

光 名 地 址 一 一 一 一 一 太 交 亩 于 出 | 一 一 一 一 一 一 一 一 一 一 一 一 一 一 线性 地 址 一 物 型 地 直 
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图 6-38 ”IA-32e 模 式 的 地 址 转换 过 程 示 意图 


根据 图 6-38 描 绘 的 IA-32e 模 式 地 址 转换 过 程 可 知 ， 从 逻辑 地 址 到 线性 地 址 的 转换 过 程 与 保护 模式 
基本 相同 ， 依 然 采 用 段 基地 址 加 段 内 偏 移 的 方法 ， 但 IA-32e 模 式 的 段 基 地 址 和 段 长 度 已 被 忽略 ， 进 而 
使 得 段 覆 盖 了 整个 线性 地 址 空间 ( 也 称 平坦 地 址 空间 )。 由 于 段 基 地 址 被 强制 设置 为 0， 从 而 导致 好 辑 
地 址 与 线性 地 址 间 的 转换 过 程 透 明 化 ， 段 内 偏 移 在 数值 上 与 线性 地 址 相等 ， 并 且 线 性 地 址 必须 是 
Canonical 类 型 的 ， 否 则 将 触发 #GP 异 常 。 因 为 Canonical 型 线性 地 址 的 有 效 寻 址 位 宽 是 48 位 ，IA-32e 模 
式 采用 PML4 对 其 进行 管理 是 比较 合理 的 ， 此 举 不 但 可 使 处 理 器 支持 多 种 规格 (4KB、2 MB 和 1 GB ) 
的 物理 页 ， 而 且 经 过 PML4 划 分 后 每 个 页 表 容 量 依然 使 用 4 KB。 

至 此 ， 本 章 对 Intel 处 理 器 运行 模式 和 基础 功能 的 讲解 已 经 结束 (AMD 处 理 器 同样 适用 )。 虽 然 并 
未 面面俱到 讲解 处 理 器 体系 结构 ， 但 起 码 可 以 让 读者 有 个 整体 认 知 ， 不 至 于 在 自学 时 无 从 着 手 。 至 于 
浮 点 /向 量 计算 (包括 x87 FPU、MMX、SSE 和 AVX 等 )、 调 试 、 性 能 监测 以 及 一 些 虚 拟 技术 等 知识 本 
书 暂 不 涉及 ， 感 兴趣 的 读者 请 自行 阅读 Intel 官 方 白皮书 及 其 他 相关 资料 。 

目前 ， 大 部 分 操作 系统 正人 处 于 向 IA-32e 模 式 过 度 时 期 ， 保 护 模 式 将 逐步 退出 历史 舞台。 相信 在 不 
久 的 将 来 ，64 位 操作 系统 将 成 为 时 代 的 主角 。 


ne 


J 三 


善 BootLoader 功 能 


本 章 将 会 对 初级 篇 编写 的 BootLoader 程 序 进行 升级 和 完善 ， 并 补充 讲解 遗漏 的 技术 细节 。 而 且 从 


本 章 开始 我 们 将 进入 物理 平台 的 研发 工作 ， 光 听 听 就 会 


觉得 这 是 一 件 令 人 热血 沸腾 的 事 ， 想 必 读 者 已 


经 期 竺 物理 平台 的 讲解 许久 了 。 不 过 在 高 兴 之 余 ， 还 是 希望 读者 多 加 思考 。 


目前 ， 本 系统 程序 虽 已 在 Bochs 虚 拟 机 中 流畅 运行 ， 但 虚拟 平台 的 某 些 细节 处 理 方面 还 是 与 物理 


平台 存在 一 定 区 别 和 差异 ， 所 以 初 涉 物理 平台 开发 时 也 会 有 诸多 困难 需要 读者 面 对 和 克服 。 特 别 是 在 


BootLoader 引 导 加 载 程序 的 执行 阶段 ， 


此 时 几乎 没有 任何 辅助 工具 和 监测 手段 可 以 帮助 我 们 解析 问 


题 ， 我 们 只 能 通过 日 志 信 息 来 判断 运行 过 程 的 正确 性 。 幸 好 BootLoader 引 导 加 载 程序 已 在 Bochs 虚 拟 机 
中 运行 无 误 ， 接 下 来 只 要 确保 BootLoader 引 导 加 载 升 级 的 每 段 代 码 都 能 够 正确 无 误 执 行 ， 从 虚拟 平台 
到 物理 平台 的 移植 工作 就 可 实现 ， 其 他 程序 亦 是 如 此 。 


本 章 内 容 的 学 习 即 将 开始 ， 这 又 是 一 段 令 


7.1 实 模式 的 寻 址 瓶颈 


实 模式 的 寻 址 瓶颈 源 于 寻 址 寄存 
寻 址 的 物理 地 址 空间 内 还 包含 着 许多 
不 足 。 


人 兴奋 的 冒险 。 


器 的 位 宽 过 少 ， 从 而 导致 无 法 满足 程序 的 寻 址 需求 ， 并 且 在 可 


段 非 物 理 内 存 空间 


以 及 内 存 空 洞 ， 它 们 造成 了 内 存 空间 的 严重 


为 了 消除 或 避免 实 模式 下 的 寻 址 ; 


瓶 颂 ， 必 须 合 理 分 


配 程序 的 存储 空间 ， 并 想 办 法 扩大 物理 地 址 


的 寻 址 范围 。 因 此 就 有 了 本 节 关 于 如 


何 突破 实 模式 寻 址 ; 


五 颈 的 方法 。 可 能 有 的 读者 会 好 奇 为 什么 要 


在 实 模式 下 耗费 这 么 多 功夫 和 周折 。 虽 然 实 模式 有 着 很 多 限制 ， 但 实 模式 的 BIOS 中 断 服务 程序 却 能 
提供 丰富 的 功能 ， 这 些 服务 程序 会 在 操作 系统 研发 初期 大 大 简化 开发 过 程 ， 避 免 过 于 复杂 的 硬件 设 


备 操作 过 程 。 


7.1.1 错综复杂 的 1 MB 物理 地 址 空间 


x 间 ， 其 由 来 依然 是 源 于 物理 平台 的 向 下 兼容 性 。 追 溯 到 DOS 操 作 
系统 盛行 的 时 代 ，1 MB 物理 地 址 空间 对 于 8088/8086 处 理 器 来 说 非常 宽广 ， 物 理 平 台 将 物理 地 址 空间 
划分 成 多 个 区 域 ， 供 物理 内 存 和 BIOS 程 序 使 用 ， 图 7-1 大 致 描绘 了 各 个 区 域 的 功能 。 


提起 错综复杂 的 1 MB 物理 地 址 空 
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0x100000 1 MB 
BIOS SHADOWED 了 映射 
OxF0000 
扩展 BIOS SHADOWED 映 射 
0xE0000 
ROM 扩 展 空间 
0xD0000 
ROM 扩 展 空间 
0xC0000 
显示 缓冲 区 
0xA0000 
主 内 存 区 
0x00500 768 KB 
BIOS 数 据 区 
0x00400 640 KB 
响 上 且 - 
0x00000 0B 
图 7-1 1 MB 物理 地 址 空间 区 域 图 


从 图 7-1 中 可 以 看 出 ,物理 内 存 可 使 用 的 地 址 范围 是 0x00000~0x9FFFF， 理 论 上 这 段 空 间 的 物理 内 
存 丝 可 使 用 , 但 实际 分 配 的 可 用 物理 内 存 容量 还 需 借助 BIOS 中 断 服务 程序 检测 出 来 。 通 常情 况 下 ， 物 
理 地 址 范围 0x00000~0x003FF 中 保存 着 BIOS 的 中 断 向 量 表 ; 物理 地 址 范围 0x00400~0x004FF 中 保存 的 
是 BIOS 的 数据 区 ; 物理 地 址 范围 0x00500~0x9FFFF 是 实 模式 的 内 存 操作 空间 ， 各 种 程序 都 运行 在 这 
里 ， 当 然 也 包括 0x7C00 地 址 处 的 Boot 引 导 程 序 。 物 理 地 址 范围 0x*A0000~0xD0000 是 显存 缓冲 区 ， 其 中 
包含 字符 显存 缓冲 区 和 像素 位 图 显存 缓冲 区 等 。 随 后 的 物理 地 址 空间 映射 了 控制 卡 的 ROM BIOS 或 其 
他 BIOS， 而 物理 地 址 范围 0xE0000~0x100000 则 是 系统 ROM BIOS 的 SHADOWED 映 射 区 ， 该 区 域 是 
ROM BIOS 在 内 存 中 复制 的 一 个 副本 。 

本 系统 和 Linux 系 统 的 引导 加 载 阶段 ， 都 必须 借助 BIOS 中 断 服务 程序 才能 实现 内 核 程 序 的 加 载 
和 配置 一旦 进入 内 核 程 序 将 无 法 再 使 用 BIOS 中 断 服务 程序 。 因 此 ， 在 BootLoader 程 序 的 引导 加 载 
阶段 ， 应 尽量 合理 分 配 物 理 内 存 以 防止 内 存 空 间 不 足 。 或 者 使 用 特殊 方法 ,将 数据 转 存 至 1 MB 以 上 
的 物理 内 存 空间 中 , 但 在 转 存 前 必须 增强 处 理 器 的 物理 地 址 寻 址 能 力 ( 可 进行 1 MB 物理 地 址 寻 址 )， 
否则 超过 1 MB 的 物理 地 址 只 能 在 1 MB 地 址 空间 内 回环 。 


7.1.2 ”突破 1 MB 物理 内 存 瓶 颈 


原始 的 8088 处 理 器 只 有 20 条 地 址 线 ( 地 址 引 脚 )， 这 导致 其 物理 地 址 寻 址 能 力 只 有 1 MB 。 实 模 
式 的 最 大 逻辑 地 址 是 FFFFh: FFFFh = 10FFEFh， 大 于 1 MB 的 地 址 0xFFEF 将 被 回环 至 物理 地 址 0 处 
重新 计算 。 

进入 80286 时 代 后 ， 处 理 器 已 经 拥有 24 条 地 址 线 ， 为 了 完全 兼容 8088 人 处理 器 ，80286 处 理 器 衍生 出 
了 bug。 当 程序 访问 100000h~10FFEFh 范 围 内 的 物理 地 址 空间 时 ， 处 理 器 不 会 回环 至 物理 地 址 0 处 。 为 


240 第 7 章 完善 BootLoader 功能 


了 解决 这 一 问题 , IBM 通 过 向 键盘 控制 器 的 剩余 引 脚 追加 AND 逻 辑 门 来 控制 (开启 或 关闭 ) 超过 1 MB 
物理 地 址 空间 的 访问 ， 这 就 是 “A20 地 址 线 ” 的 由 来 。 

随 着 物理 平台 的 升级 和 演化 ， 现 在 已 经 有 多 种 开启 和 关闭 A20 地 址 线 的 方法 ,例如 通过 键盘 控制 
器 、 操 作 I/O 端 口 0x92、BIOS 中 断 服务 程序 INT 15h 以 及 读 写 端口 0xee 等 方法 ， 部 分 方法 已 在 3.2.2 节 介 
绍 过 ， 这 里 便 不 再 重复 讲解 。 值 得 注意 的 是 ，1/O 端 口 0x92 的 第 0 位 用 于 向 机 器 发 送 复位 信号 ， 置 位 端 
口 0x92 的 第 0 位 将 使 机 器 重新 启动 ， 所 以 在 向 IO 端口 0x92 写 人 数据 时 千 万 不 要 置 位 第 0 位 。 


7.1.3” 实 模式 下 的 4 GB 线性 地 址 寻 址 


Big Real Mode 也 称 为 Unreal Mode， 这 种 模式 是 在 实 模式 的 基础 上 间接 地 借助 保护 模式 的 段 寻 址 
方法 ,来 扩展 实 模 式 的 寻 址 能 力 ， 即 将 实 模式 的 线性 寻 址 能 力 从 1 MB 扩展 为 4 GB。Unreal Mode 模 式 
就 是 为 突破 实 模式 寻 址 瓶颈 而 产生 的 。 相 信 在 学 习 过 实 模式 和 保护 模式 的 寻 址 方式 以 后 , 再 来 理解 Big 
Real Mode 模 式 将 会 是 一 件 容易 的 事情 。 

Big Real Mode 模 式 的 开启 起 始 于 实 模 式 ， 在 实 模式 下 我 们 需要 准备 保护 模式 运行 所 必须 的 GDT 以 
及 代码 段 描 述 符 和 数据 段 描 述 符 ， 接 着 开启 A20 地 址 线 并 跳 转 至 保护 模式 ， 这 一 切 都 按照 实 模 式 切换 
至 保护 模式 的 流程 执行 即 可 。 当 进入 保护 模式 后 ， 直 接 向 目标 段 寄存 器 载 人 段 选择 子 ， 处 理 需 在 向 目 
标 段 寄存 器 加 载 段 选择 子 的 同时 ， 还 将 段 描述 符 加 载 到 目标 段 寄 存 器 中 隐藏 部 分 )， 随 后 再 切换 回 
实 模式 。 如 果 此 后 目标 段 寄 存 器 值 不 再 修改 ， 那 么 目标 段 寄 存 器 仍然 缓存 着 段 描述 符 信息 。 现 在 ， 如 
果 使 用 目标 段 寄 存 器 访问 内 存 的 话 ， 处 理 器 依然 会 采用 保护 模式 的 逻辑 地 址 寻 址 方式 ， 即 使 用 目标 段 
基地 址 加 32 位 段 内 偏 移 的 方式 。 请 注意 ， 如 果 在 Big Real Mode 模 式 下 重新 对 目标 段 寄 存 器 进行 赋值 ， 
处 理 器 会 覆盖 段 寄 存 器 缓存 的 段 描 述 符 信 息 ， 从 而 导致 目标 段 寄 存 器 无 法 再 进行 4 GB 寻 址 ， 除 非 再 次 
进入 保护 模式 为 目标 段 寄存 器 加 载 段 选择 子 。 

此 刻 ， 回 过 头 再 看 代码 清单 3-17， 那 段 连续 开启 和 关闭 保护 模式 的 程序 就 不 再 是 多 此 一 举 了 。 


7.2 ”获取 物理 地 址 空间 信息 


在 Loader 引 导 加 载 程序 的 执行 过 程 中 ， 获 取 物 理 地 址 空间 信息 是 一 项 必 不 可 少 的 工作 。 只 要 检测 
出 物理 地 址 的 映射 信息 后 ,操作 系统 便 可 根据 这 些 信息 构筑 物理 内 存 管理 单元 。 通 过 BIOS 中 断 服务 程 
序 INT 15h 的 主 功能 号 Ax=E820h 来 获取 物理 地 址 空间 信息 是 目前 比较 常用 的 方法 ,该 中 断 服务 程序 的 
各 寄存 器 参数 说 明 如 下 。 
INT 15h，AX=E820h 功能 : 获取 物理 地 址 空间 信息 。 
口 调用 传 入 值 
m EAX=0000E820h; 
四 EDX=534D4150h (字符 串 “SMAP”); 
和 EBX=00000000h (此 值 为 起 始 映射 结构 体 ， 其 他 值 为 后 续 映 射 结构 体 ); 
晶 ECX= 预 设 返 回 结果 的 缓存 区 结构 体 长 度 ， 以 字 节 为 单位 (应 该 大 于 等 于 20B ); 
上 ES: DI=> 保 存 返回 结果 的 缓存 区 地 址 。 
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口 调用 返回 值 
得 如 果 CF=0， 则 说 明 操 作 执 行 成 功 。 
4 EAX=534D4150h (字符 串 “SMAP” ); 
多 ES: DI=> 保 存 返 回 结 果 的 缓存 区 地 址 ; 
4 EBX=00000000h( 此 值 表 明 检 测 结束 ， 其 他 值 为 后 续 映 射 信 息 结构 体 序号 ); 
多 ECX= 保 存 实 际 操作 的 缓存 区 结构 体 长 度 ， 以 字 节 为 单位 。 
里 如 果 CF=1， 则 说 明 操作 执行 失败 。 
4 AH= 错 误 码 ( 80h: 无 效 命令 ; 86h: 不 支持 此 功能 )。 
这 个 BIOS 中 断 服务 程序 需要 执行 多 次 ,每 次 执行 成 功 后 ， 服 务 会 返回 一 个 非 零 值 以 表示 后 续 映 射 
言 息 结 构 体 序号 。 该 服务 可 返回 物理 内 存 地 址 段 、 设 备 映 射 到 主板 的 内 存 地 址 段 (包括 ISA/PCI 设 备 
内 存 地 址 段 和 所 有 BIOS 的 保留 区 域 段 ) 以 及 地 址 空洞 。 
物理 地 址 空间 信息 结构 是 一 个 占 20 B 的 结构 体 ， 其 中 包含 物理 起 始 地 址 、 空 间 长 度 和 内 存 类 型 ， 
表 7-1 是 物理 地 址 空间 信息 结构 的 各 成 员 功 能 说 明 。 


表 7-1 ”物理 地 址 空间 信息 结构 的 各 成 员 功能 说 明 表 


偏 移 值 字 节 数 描 述 
00h 8B 起 始 地 址 
08h 8B 长 度 (以 字 节 为 单位 ) 
10h 4B 内 存 类 型 
物理 地 址 空间 的 内 存 类 型 分 为 若干 种 ， 读 者 根据 它们 的 内 存 类 型 可 有 效 区 分 其 应 用 场景 。 比 较 典 


型 的 内 存 类 型 是 有 效 物 理 内 存 (类 型 值 01h )， 其 标识 着 当前 地 址 空间 为 可 用 物理 内 存 。 如 果 硬 件 平 台 
的 内 存 容 量 过 大 , 则 BIOS 中 断 服 务 程 序 可 能 会 检测 出 多 个 可 用 物理 内 存 段 。 更 多 内 存 类 型 定义 请 参见 
表 7-2。 


表 7-2 ”内 存 类 型 介绍 表 


类 型 值 入 - 玉 

01h 可 用 物理 内 存 

02h 保留 或 无 效 值 ( 包括 ROM、 设 备 内 存 ) 
03h ACPI 的 回收 内 存 

04h ACPINVS 内 存 

其 他 值 未 定义 ,保留 使 用 


根据 本 节 学 习 的 知识 ， 再 来 看 看 图 7-2 所 示 的 物理 地 址 空间 信息 ( 源 自 此 前 的 内 核 程序 )。 

从 图 7-2 中 可 以 看 出 ，1 MB 以 内 的 物理 地 址 空间 共 包 含 三 个 地 址 段 ， 而 且 这 些 地 址 段 间 还 有 地 址 
空洞 存在 ， 由 此 可 见 0~1 MB 物理 地 址 空间 的 复杂 性 。 对 于 现代 物理 平台 而 言 ， 它 已 普遍 拥有 上 GB 的 
物理 内 存 , 那么 读者 在 编写 内 存 管理 单元 时 ,可 忽略 1 MB 以 内 的 物理 内 存 。 此 举 可 在 精简 初始 化 程序 
的 同时 保证 内 存 不 会 遭 到 浪费 ， 本 书 操 作 系 统 的 内 存 管理 单元 就 是 这 样 实现 的 。 
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Bochs x86-64 emulator, http://bochs.sourceforge.net/ 


图 7-2 ”物理 内 存 映 射 信息 


7.3 操作 系统 引导 加 载 阶段 的 内 存 空 间 划分 


在 BootLoader 引 导 加 载 程序 的 各 个 执行 阶段 ，BootLoader 引 导 加 载 程序 都 会 通过 BIOS 中 晰 服务 程 
序 获取 硬件 数据 ， 并 将 其 保存 在 独立 的 内 存 空 = 间 中 。 这 些 硬件 数据 可 能 是 参加 计算 的 临时 数据 ， 可 能 
是 供 内 核 程 序 使 用 的 模块 初始 化 数据 。 下 面 就 让 我 们 来 缕 清 本 系统 BootLoader 引 导 加 载 程序 各 个 执行 
阶段 的 内 存 地 址 空间 划分 情况 。 

@ Boot 引导 程序 执行 阶段 的 内 存 地 址 空间 划分 情况 

Boot 引 导 程 序 的 主要 作用 是 从 存储 介质 中 加 载 Loader 程 序 到 内 存 ， 所 以 内 存 空 间 主要 用 于 存储 
Loader 程 序 。 如 果 加 载 过 程 涉及 文件 系统 的 访问 ， 那 么 Boot 引 导 程 序 很 可 能 需要 为 文件 系统 划分 临时 
缓存 区 。 图 7-3 是 本 书 操作 系统 在 执行 Boot 引 导 程 序 阶段 使 用 的 内 存 地 址 空间 。 


Loader 引 导 加 载 程序 @ 
10000h 
FAT 文 件 系统 临时 缓冲 区 外 
8000h 
Boot 引 导 程 序 他 
7c00h 


图 7-3 ”Boot 引 导 程序 的 内 存 地 址 空间 划分 示意 图 
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到 7-3 通 过 序号 标注 了 Boot 引 | 导 程 序 各 执行 步骤 使 用 的 内 存 空间 。 下 面 按照 Boot 引 导 程 序 的 执行 流 
程 对 各 内 存 空 间 的 使 用 原因 做 逐一 解释 。 

(1) 从 地 址 0x7c00 开 始 的 512 B 内 存 空 间 保存 着 MBR 主 引导 扇 区 内 的 数据 ， 即 Boot 引 导 程 序 。 这 上段 
程序 是 在 硬件 平台 上 电 时 , 由 BIOS 自 动 从 存储 介质 中 加 载 到 物理 地 址 0x7c00 处 的 。 这 段 内 存 空间 固定 
留 给 Boot 引 导 程 序 使 用 ， 当 Boot 程 序 执行 结束 后 ， 此 内 存 空间 可 另 作 他 用 。 

(2) 由 于 本 系统 的 Loader 引 导 加 载 程序 保存 在 FAT12 文 件 系 统 内 ， 那 么 在 Boot 引 导 程序 访问 FAT12 
文件 系统 时 就 需要 临时 数据 缓存 区 来 保存 FAT 表 项 和 目录 项 等 数据 ， 这 里 选用 物理 地 址 0x8000 起 始 处 
的 IKB 内 存 空间 来 作为 文件 系统 的 临时 数据 缓存 区 。 

(3) 物理 地 址 0x10000 处 保存 着 Loader 引 导 加 载 程序 ，Boot 引 导 程 序 通过 搜索 FAT12 文 件 系统 ， 将 
Loader 引 导 加 载 程序 逐个 复读 取 到 这 段 内 存 地 址 空间 中 。 

@ Loader 引 寻 加 载 程序 执行 阶段 的 内 存 地 址 空间 划分 情况 

由 于 Boot 引 导 程 序 爱 限 于 MBR 主 引导 扇 区 的 容量 ( 只 有 512 B ) 导致 无 法 实现 太 多 功能 ， 所 以 绝 
大 部 分 硬件 数据 采集 工作 都 是 由 Loader 引 导 加 载 程序 完成 的 。 由 此 可 知 ，Loader 引 导 加 载 程序 将 会 开 
辟 许 多 块 内 存 地 址 空间 来 进行 数据 存储 或 临时 缓存 , 图 7-4 描 绘 了 本 书 操作 系统 在 执行 Loader 引 导 加 载 
程序 阶段 使 用 的 内 存 地 址 空间 。 


内 核 程 序 @ 
1 MB 


临时 页 表 @ 
90000h 


ModeInfoBlock@ 
8200h 


FAT 文 件 系 统 临 时 缓存 区 @/VBElnfoBlock@ 


8000h 


内 核 文件 临时 缓存 区 名 /物理 地 址 映射 信息 @ 


7e00h 


7c00h 


图 7-4 Loader 引 导 加 载 程序 的 内 存 地 址 空间 划分 示意 图 


到 7-4 同 样 使 用 序号 标注 了 Loader 引 导 加 载 程 序 各 执行 步 又 使 用 的 内 存 空间 。 下 面 按照 Loader 引 导 
加 载 程序 的 执行 流程 对 各 内 存 空间 的 使 用 原因 做 逐一 解释 。 

(1) 此 时 ,物理 地 址 0x7c00 处 依然 保存 着 Boot 引 导 程 序 ， 不 过 处 理 器 的 执行 权 已 交 给 Loader 引 导 加 
载 程序 ，Boot 引 导 程 序 占用 的 内 存 空间 便 可 释放 。 现 在 物理 地 址 0x7c00 已 作为 栈 基 地 址 使 用 。 


< 
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(2) Loader 引 导 加 载 程序 执行 的 第 一 项 工作 是 从 FAT12 文 件 系 统 中 搜索 内 核 文件 kernel.bin， 整 个 搜 
索 过 程 依然 使 用 物理 地 址 0x8000 处 的 1KB 内 存 空间 来 缓存 文件 系统 的 临时 数据 (FAT 表 项 和 目录 项 )。 

(3) 在 搜索 到 内 核 文件 kernelLbin 后 ，Loader 引 导 加 载 程序 并 未 直接 使 用 BIOS 中 断 服 务 程序 将 内 核 
文件 读 取 到 物理 地 址 1 MB 人 处， 而 是 暂 将 1 个 艇 的 数据 缓存 到 物理 地 址 0x7e00 人 处 。 

(4) Loader 引 导 加 载 程序 先 从 软盘 中 读 取 1 个 簇 的 内 核 文 件 kernel.bin 数 据 到 物理 地 址 0x7e00 处 后 ， 
再 把 物理 地 址 0x7e00 处 缓存 的 数据 逐 字 节 复 制 到 物理 地 址 1 MB 处 。 步 又 (3) 和 步 又 (4) 循 环 执行 ， 直 至 
内 核 文件 kernel.bin 加 载 结 束 。 

(5) 当 内 核 文 件 kernel.bin 加 载 至 1 MB 处 的 内 存 空间 后 ， 物 理 地 址 0x7e00 处 的 内 核 文件 临时 缓存 
方 可 另 作 他 用 ， 稍 后 它 将 作为 物理 地 址 空间 信息 的 存储 空间 使 用 。 

(6) Loader 引 导 加 载 程序 将 通过 BIOS 中 断 服务 程序 获取 VBE 人 信息， 这些 信 息 会 保存 在 物理 地 址 
0x8000 处 。 

(7) 当 取 得 VBE 信 息 后 ，Loader 引 导 加 载 程序 还 要 根据 VBE 提 供 的 信息 再 取得 显示 模式 信息 (通过 
BIOS 中 断 服 务 程序 来 获取 ) 有 了 显示 模式 信息 便 可 配置 出 适合 自己 的 显示 模式 。( 关于 VBE 信 息 和 显 
示 模 式 信 息 请 参见 7.6 节 内 容 。 ) 

(8) 步骤 (53)、 步 又 (0 和 步骤 (7) 均 是 通过 BIOS 中 晰 服务 程序 获取 的 硬件 设备 信息 ， 随 着 硬件 设备 信 
息 获 取 结 束 ， 处 理 器 将 进入 保护 模式 。 保 护 模 式 将 使 用 物理 地 址 0x90000 处 的 几 个 物理 页 (4 KB ) 作 
为 保护 模式 的 临时 页 表 。( 保护 模式 的 页 表 数 据 集 成 于 Loader 引 导 加 载 程序 内 ， 当 Loader 引 导 加 载 程序 
被 读 取 至 内 存 后 ， 这 就 意味 着 页 表 项 数据 已 经 准备 就 绪 。 ) 

通过 本 节 的 学 习 ， 相 信 读 者 已 经 了 解 BootLoader 引 导 加 载 程序 在 各 执行 阶段 对 内 存 地 址 空间 的 使 
用 情况 (包括 内 存 地 址 空间 的 划分 和 内 存 地 址 空间 的 生命 周期 ) 如 果 读 者 对 DIY 感 兴趣 ， 可 在 此 内 存 
地 址 空间 划分 的 基础 上 另 作 分 配 或 修改 。 


7.4 UU 盘 启 动 


本 节 将 会 帮助 读者 逐步 摆脱 虚拟 平台 的 束缚 ， 并 使 用 U 盘 和 物理 平台 取而代之 。 本 书 选 用 
Lenovo ThinkPad X220 Tablet 笔 记 本 作为 物理 平台 ， 对 于 U 盘 的 存储 空间 并 无 过 多 要 求 ，8 MB 容 
量 的 U 盘 足 矣 。 

在 选 定 物理 设备 后 ， 首 先 必 须 解决 的 几 个 问题 是 : 选择 何 种 U 盘 启动 模式 、 如 何 编写 程序 使 得 物 
理 平 台 可 以 执行 U 盘 里 的 Boot 引 导 程 序 ， 以 及 如 何 通过 BIOS 中 断 服 务 程序 来 对 U 盘 进行 读 写 操作 。 以 
上 这 些 疑 问 将 会 在 本 节 的 学 习 过 程 中 逐渐 得 到 答案 。 本 节 课 程 即将 开始 ， 你 的 物理 平台 和 U 盘 准备 好 
了 吗 ? 


4X 


7.4.1 USB-FDD、USB-ZIP 和 USB-HDD 启动 模式 的 简介 


介绍 启动 模式 (USB-FDD 、USB-ZIP 和 USB-HDD ) 是 源 于 配置 BIOS 启 动 界面 时 产生 的 困惑 ， 
图 7-5 是 物理 平台 的 BIOS 启 动 项 排序 菜单 。 
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ThinkPad Setup 


1. USB FDD USB Disk 


Help Select Item Change Values Setup Defaults 
Exit Select Menu Select * Sub-Menu Save and Exit 


图 7-5 ”物理 平台 的 BIOS 启 动 项 排序 菜单 


在 这 个 启动 项 菜单 中 ，Boot 启 动 顺序 的 前 两 项 是 USB-FDD 启 动 模式 与 USB-HDD 启 动 模式 。 根 据 
以 往 安装 操作 系统 的 经 验 ， 只 要 将 这 两 项 上 移 至 Boot 启 动 顺序 的 最 前 沿 即 可 使 BIOS 自 动 引 导 U 盘 里 的 
安装 程序 。 但 在 操作 系统 的 研发 过 程 中 ， 必 须 明 确 上 述 启动 模式 的 区 别 和 特性 才能 使 BootLoader 引 导 
加 载 程序 正常 执行 。 经 过 一 番 调 查 后 我 们 得 出 以 下 结论 。 

口 USB-FDD 是 模拟 软盘 启动 模式 ， 它 可 使 BIOS 系 统 将 U 盘 模拟 成 软盘 进行 引导 。 

口 USB-ZIP 是 模拟 大 容量 软盘 启动 模式 ， 在 某 些 老式 电脑 上 它 是 唯一 可 选 的 U 盘 启动 模式 ， 该 模 
式 对 大 部 分 新 式 电脑 的 兼容 性 不 好 。 

口 USB-HDD 是 模拟 硬盘 启动 模式 ， 它 可 使 BIOS 系 统 将 U 盘 模拟 成 硬盘 进行 引导 。 

从 结论 中 可 以 看 出 USB-ZIP 只 是 一 种 过 渡 启 动 模式 ， 因 此 接 下 来 将 针对 具有 代表 性 意义 的 
USB-FDD 启 动 模式 和 USB-HDD 启 动 模式 进行 分 析 。 为 了 更 加 深刻 理解 这 两 种 启动 模式 ， 此 处 将 会 采 
用 实例 剖析 的 方法 对 启动 模式 进行 讲解 。 

@ USB-FDD 模 拟 软盘 启动 模式 

首先 ， 使 用 磁盘 管理 软件 DiskGenius 清 空 U 盘 扇 区 里 的 所 有 数据 ， 然 后 再 格式 化 U 盘 。 这 里 请 读者 
一 定 要 注意 , 不 要 只 格式 化 U 盘 ， 而 忽视 或 忘记 清空 U 盘 扇 区 里 的 所 有 数据 。 如 果 只 格式 化 U 盘 的 话 ， 
虽然 U 盘 里 的 文件 系统 是 空 的 ， 但 U 盘 的 扇 区 里 仍然 残留 着 格式 化 以 前 的 数据 〈 脏 数 据 )， 相信 知晓 文 
件 系 统 原理 的 读者 应 该 会 理解 其 中 的 缘由 ， 这 也 是 误 删 除 后 的 文件 依然 能 够 被 找 回来 的 原因 。 

清空 U 盘 扇 区 内 的 数据 后 ， 将 U 盘 的 启动 模式 选择 为 USB-FDD 虚 拟 软盘 启动 模式 ， 随 后 软件 会 弹 
出 图 7-6 所 示 的 对 话 框 。 注 意 , 一 定 要 把 指派 驱动 器 号 、 扫 描 坏 扇 区 、 建 立 DOS 系 统 等 选项 勾 选 掉 ， 只 
有 这 样 才能 保证 U 盘 里 是 一 个 干净 的 文件 系统 。 
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在 将 U 盘 转换 为 USB-FDD 
角度 来 看 ，FAT12 文 件 系 统 的 结构 简单 、 易 分 析 ， 而 且 


是 不 二 的 选择 。 


见 察 图 7-7 记 录 的 扇 区 数据 ， 在 扇 区 偏 移 地 址 0x36 处 标明 着 字符 串 
结构 表 ( 表 3-1 ) 可 知 ， 这 里 恰好 是 文件 系统 类 型 字段 (BS_FilesysType ) 所 处 位 
置 ， 而 其 数值 也 完全 符合 FAT12 文 件 系 统 的 要 求 。 同 理 ， 扇 区 偏 移 地 址 0x03 处 标 
EMName ) 相对 应 。 由 此 可 见 ， 这 是 一 个 FAT12 文 件 系统 的 引 


是 


转换 到 USB-FDD 模 式 - RD1:USBDisk(16MB) 


虚拟 软盘 启动 模式 的 同时 ， 


ha 
人 小 区 十 
卷 标 : 
回 指派 蝶 动 器 号 : 了 本 
扫 措 坏 扇 区 启用 压缩 
回 建立 00s 系 统 
| 


图 7-6 USB-FDD 启 动 模式 配置 对 话 框 


还 包含 着 格式 化 文件 系统 的 过 程 。 从 解析 的 
它 作为 目前 本 书 唯一 使 用 过 的 文件 系统 ， 当 然 


确定 目标 文件 系统 后 ， 点 击 “转换 ”按钮 便 可 完成 U 盘 启动 模式 的 设置 和 文件 系统 的 
格式 化 。 然 后 查看 U 盘 引导 扇 区 MBR 中 的 数据 ， 


Offset 
00000000 
00000010 
00000020 
00000030 
00000040 
00000050 
00000060 
00000070 
00000080 
00000090 
000000A0 
000000B0 
000000C0 
000000D0 
000000E0 
000000F0 
00000100 
00000110 
00000120 
00000130 
00000140 
00000150 
00000160 
00000170 
00000180 
00000190 
000001A0 
000001B0 
000001C0 
000001D0 
000001E0 
000001F0 


“MSDOS5.0” 与 生产 厂商 名 字段 (BS_ol 


8 2 9 和 “5 
EB 3C 90 4D 53 44 
02 E0 00 82 7D 
00 00 00 00 00 00 
20 20 20 20 20 20 
8E D1 
38 4E 24 7D 24 8B 
66 al 1C 7C 26 66 
02 88 56 02 80 
66 16 03 46 1lC 13 
60 89 46 
C3 48 
00 72 39 26 38 2D 
61 74 32 4E 74 09 
FB 7D 
BB 07 00 
El 
3B 00 72 
3D 7D 
06 96 7D 
66 03 46 1C 66 8B 
4 
4a 52 50 06 53 
D2 
co 
8B F4 
SE 0B 49 75 06 
BO 4E 54 4C 44 52 
6D 6F 76 65 20 64 
68 65 72 20 6D 65 
6B 20 65 72 72 6F 
61 6E 79 20 6B 65 
72 74 0D 


详细 扇 区 数据 请 参见 图 7-7。 


0123456789ABCDEF 
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图 7-7 USB-FDD 启 动 模式 的 U 盘 引导 扇 区 数据 网 


“FAT12”, 


导 扇 区 ， 它 由 主 引导 记录 和 0xAA55 结 束 标志 符 两 部 分 构成 。 


不 论 是 软盘 还 是 便 盘 ， 


在 DiskGenius 软 件 里 却 有 相关 信息 


它们 都 是 由 


局 区 、 磁 头 、 


的 显示 ， 详 细 信 息 请 参见 


图 7-8。 


对 照 第 3 章 的 FAT12 


大明 的 字符 串 


磁道 三 部 分 组 成 的 。U 盘 是 没有 这 些 概 念 的 ， 可 
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《> 
硬盘 1 
接口 :USB 型 号 :USBDisk 序列 号 :000000002960 容量 :16. OMB 柱 面 数 :2 磁头 数 :255 ”每 道 肩 区 数 :63 “总 扇 区 数 :32768 


ED | 4 it 一 ek A 

了 向 -<p 系统 保留 (0) 卷 标 序号 快 态 ) ”文件 系统 标识。 起 始 柱 面 磁头 ” 扇 区 终止 柱 面 磁头 扇 区 容量 

由 < 本 地 磁盘 (C:) < 可 移动 研 盘 @:) 0 PhArl2 ol Ce 1 254 63 15.78 
0:) 


由 < RAINDISK | 


文件 系统 类 型 TAT12 。 卷 标 
总 窒 15.TIB 。 总 字 忆 堵 16450580 

已 用 衬 间 21.0B 。 本 用 空间 15. TWB 

锋 大 小 4096 总 4011 

已 用 该 数 0 定 入 才 4011 

名 万 区 数 32130 。 肩 区 大 小 Sl2 Bytes 

起 始 请 区 号 0 

卷 序列 吕 ， 0000-4823 。 了 8 准 标 

保留 鹿 区 数 

FAT 个 雪 2 FAT 良 区 未 12 

BAII 语 区 号 1 性 面 0 磁头 :0 肩 区 :2) 

AT2 读 区号- 13 (性 面 :0 碰头 :0 肩 区 :14) 

根 目录 请 区 号 25 性 面 :0 碰头 :0 局 区 :26) 

根 目录 项 目 雪 224 

数据 起 始 肩 区 号 39 性 面 :0 磁头 :0 请 区 :40) 

数据 分 配 情况 图 : 量 已 分 配 口 空 亲 加 是 T 国保 留 加 7AT! 加 FAT2 国 根 目录 


图 7-8 USB-FDD 启 动 模式 的 FAT12 文 件 系统 参数 信息 


从 图 7-8 中 可 以 清晰 看 到 ，U 盘 的 容量 为 16 MB ， 共 含有 2 个 柱 面 、255 个 磁头 、 每 磁道 63 个 扇 区 ， 
共计 32768 个 扇 区 。 请 读者 干 万 要 注意 ， 此 处 的 数据 极 有 可 能 是 DiskGenius 软 件 自己 模拟 出 来 的 ， 笔者 
在 引导 程序 中 使 用 BIOS 中 断 服务 程序 INT 13h 的 主 功能 号 AH=02h， 以 CHS (Cylinders-Heads-Sectors ， 
磁 柱 -磁头 - 鹿 区 ) 鹿 区 寻 址 模式 读 取 U 盘 扇 区 中 的 数据 ， 返 回 的 结果 是 无 效 的 或 者 读 取出 来 的 数据 与 
目标 扇 区 中 的 数据 不 符 。 看 来 BIOS 中 断 服务 程序 INT 13h 的 主 功能 号 AH=02h 不 适合 读 取 非 CHS 扇 区 寻 
址 模式 的 肩 区 。 

因此 ， 只 要 使 用 正确 的 U 盘 访问 方法 ， 便 可 像 读 取 软 盘 一 样 操作 U 盘 。 对 于 U 盘 的 访问 方法 ， 稍 后 
将 会 为 读者 介绍 ， 请 稍 安 勿 躁 。 

@ USB-HDD 模 拟 硬盘 启动 模式 

首先 ， 同样 使 用 磁盘 管理 软件 DiskGenius 清 空 U 盘 扁 区 里 的 所 有 数据 ， 再 选择 U 盘 的 启动 模式 。 这 
里 将 启动 模式 选择 为 USB-HDD 虚 拟 硬盘 启动 模式 ， 并 格式 化 文件 系统 。 当 U 盘 转换 为 USB-HDD 启 动 
模式 后 ， 软 件 会 弹出 如 图 7-9 所 示 的 引导 分 区 创建 配置 对 话 框 


| 请 选择 分 区 类 型 
回 主 磁盘 分 区 
扩展 磁盘 分 区 
逻辑 分 区 
请 选择 文件 系统 类 型: 
| Eee 
| 文件 系统 标识 : |01 
”新 分 区 大 小 (8 - 16 MB): 
| 芭 3 
| 
| 
| 


出 


对 齐 到 下 列 扇 区 数 的 整数 借 : 


2048 扇 区 (1048576 字 节 ) 


Er 
取消 


1HI 


图 7-9 USB-HDD 启 动 模式 的 引导 分 区 创建 配置 对 话 和 
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文 


导 扇 区 被 分 成 引导 代码 (0x000~0xl1BD )、 硬 盘 分 区 表 ( 0x1BE~0x1FD ) 以 及 结束 符 0xAA55 三 段 ， 
中 的 硬盘 分 区 表 寺 


个 硬盘 分 区 表 项 值 均 为 00h。 那 么 


件 
盘 引 导 
一 起 是 512 B。 而 硬盘 引导 扇 


从 图 7-9 可 知 ，U 盘 依然 被 格式 化 成 FAT12 文 件 系统 。 当 U 盘 格式 化 完毕 后 
MBR 内 的 数据 是 否 发 生变 化 ， 


详细 


Offset 0 
00000000 
00000010 
00000020 
00000030 
00000040 
00000050 
00000060 
00000070 
00000080 
00000090 
000000A0 
000000B0 
000000C0 
000000D0 
000000E0 
000000F0 
00000100 
00000110 
00000120 
00000130 
00000140 
00000150 
00000160 
00000170 
00000180 
00000190 
000001A0 
000001B0 
000001C0 
000001D0 
000001E0 
000001F0 


E8 
00 
43 
00 


18 


20 
6E 
67 
65 
01 
00 
00 
00 


00 
00 


00 
00 


00 
00 


00 
00 


00 
00 


岂 区 数据 请 参见 


00 
00 


图 7-10。 


00 
00 


00 
00 


00 
00 


图 7-10 USB-HDD 启 动 模式 的 引导 扇 区 数据 


0123456789ABCDEF 
Del 0 


2 


IJ |. 
aii. .V.UEF. .EF. 


“aaUi . LF Uau. 


3 | Vs 
VvV. 上 .nt.fas.b 


N.u. 2 

U28 Vi] .bi 
auniv.e. .u.u°Med 
后 . .Bae 它 | . 


“Veedeu 
.21 .f#AuU;SE .UT 


CPAu2.0..r,fh.». 


£8 
. .fh 
2 
“eB. qT.e. .2a 
wa 
.BOOEY+Edde .S$ .ag 


» 


S. 和 Invalid parti 
tion table.Error 


loading operati 


ng system.Missin 
g operating syst 
em... 


， 先 来 看 看 U 盘 引导 扁 区 


经 过 对 图 7-10 中 数据 的 分 析 ，U 盘 引导 书 区 MBR 已 找 不 到 FAT12 文 件 系 统 的 任何 踪迹 ， 那 FAT12 


系统 究竟 放 在 U 盘 的 什么 位 置 呢 ? 掌握 引导 
大 区 是 有 区 别 的 。 如 前 所 述 ， 软 盘 引 导 


共 包 含 4 项 ， 每 项 占 16 B 的 磁盘 空 


大 区 结构 的 读者 肯 


s 间 。 


定 会 明白 ， 


其 实 硬盘 引导 扇 区 


与 软 


扇 区 包括 引导 代码 和 结束 符 0xAA55 两 部 分 ， 它们 加 在 
区 则 由 引导 代码 、 硬 盘 分 区 表 、 结 束 符 0xAA55 三 部 


分 组 成 ， 因 此 硬盘 引 


其 


由 于 刚才 只 创建 了 一 个 主 硬盘 分 区 ， 故 此 图 7-10 中 的 硬盘 分 区 表 只 含有 一 个 表 项 ， 其 表 项 值 为 
80h、01h、01h、00h、01h、FEh、3Fh、01h、3Fh、00h、00h、00h、43h、7Dh、00h 和 00h， 其 他 三 


这 16 B 代 表 的 含义 是 什么 


表 7-3 ”硬盘 分 区 表 项 结构 


呢 ? 请 看 表 7-3 对 它们 的 解释 。 


偏 移 长 度 表 项 值 功能 描述 

0 1B 80h 引导 标识 符 ， 标 记 此 分 区 为 活动 分 区 

1 1B 01h 起 始 磁头 号 

2 2B 0001h 起 始 扇 区 号 和 柱 面 号 ( 扇 区 占 低 6 位 ， 柱 面 占 高 10 位 ) 
4 1B 01h 分 区 类 型 ID 值 

5 1B FEh 结束 磁头 号 

6 2B 013Fh 结束 扇 区 号 和 柱 面 号 ( 扇 区 占 低 6 位 ， 柱 面 占 高 10 位 ) 
8 4B 0000,003Fh 起 始 逻 辑 扇 区 (LBA ) 

12 4B 0000,7D43h 分 区 占用 的 磁盘 扇 区 数 
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表 7-3 描 述 


了 硬盘 分 区 表 项 的 结构 ， 其 中 包括 分 区 类 型 、 分 区 起 始 扇 区 、 


分 区 结束 扇 区 、 总 扇 区 数 


等 信息 。 这 些 信息 亦 可 通过 磁盘 管理 软件 DiskGenius 取 得 ， 讨 


羊 细 硬 盘 分 区 信息 如 图 7-11 所 示 。 


《> 
ee mm 
接口 :UsB 型 号 :USBDisk 序列 号 -000000002980 ”容量 : 16.08B 柱 面 数 :2 说 头 数 :255 每 道 计 区 数 :63 “总 请 区 数 :32768 
日 国 wo: pr SM Mi 
站 < 系统 保留 @] 卷 村 序号 状态) ， 文 件 系统 “标识 ”起 始 柱 面 磁头“ 肩 区 终止 柱 面 磁头 肩 区 容量 
由 < 本 地 磁盘 代 :) < 可 移动 磋 盘 @F:) 0 riz ol 而 丁 到 再现 1 254 的 0157 
由 < 本 地 磁盘 0:) 
由 -< 本 地 磁盘 (E:) 
日 星 w VSBDi sk (16MB) 
GD) 
[Ed ADISE (7: ) 
文件 系统 类 型 TAT12 。 卷 标 
总 大 里 15.TIB 。 总 字 节 数 16418304 
已 用 空间 1.5HB 。 可 用 空间 14.18B 
锋 大 小 4096 总 缮 到 4001 
已 用 久 数 388 。 空 闪 恋 下 3615 
总 户 区 数 32067 。 扁 区 大 小 512 Bytes 
起 妈 鹿 区 号 53 
序列 号 0000-4823 。 BTB 立 标 
保留 扇 区 灼 
个 数 扇 区 数 12 
FATI 启 区 号 1 上 生 go 
2 请 区 号 13 性 面 0 磁头 :1 展区 :14) 
根 目录 户 区 号 邱 叭 而 :0 说:1! 展区 :28) 
根 目录 项 目 雪 
孝 据 起 始 肩 区 号 本 1 区 
[和 ] 执 招 分 了 情况 图 : 量 已 分 配 口 空 得 硬 IFT 国保 留 加 AT 加 FAT2 国 根 目录 


图 7-11 TU 盘 的 硬盘 分 区 信息 


Bi 心 \ 


将 图 7-11 中 的 硬盘 (U 盘 ) 分 区 数据 与 表 7-3 进 行 对 照 ， 表 中 的 起 始 逻 辑 扇 区 值 0000,003Fh ( 十 进 


制 数 为 63 )、 
遍 
文件 系统 的 分 


的 主 分 区 中 寻找 FAT12 文 件 系 统 引 导 遍 区 的 身影 。 根 据 表 7-31 


分 区 占用 的 磁盘 扇 区 数 0000,7D43h (十进制 数值 为 32067 )， 
区 数 32067 是 一 致 的 。 而 分 区 类 型 ID 则 是 固定 值 ，01h 代 表 FAT12 文 件 系 统 ，0Fh 代 表 扩 展 分 区 ，Linux 
区 类 型 ID 值 为 83h 等 ， 更 多 分 区 类 型 ID 值 这 里 就 不 再 过 多 介绍 了 

由 于 目前 没有 在 引导 扇 区 MBR 中 发 现 FAT12 文 件 系统 的 引导 扇 区 数据 ， 那么 只 能 再 去 刚才 创建 


与 图 


中 的 起 始 扇 区 号 63、 


总 


己 录 的 硬盘 分 区 表 项 信息 ， 可 确定 主 分 区 


的 起 始 扇 区 号 是 63〈 十 六 进 币 


0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 


值 为 3Fh )。 图 7-12 所 示 便 是 从 此 扇 


区 中 读 取 出 的 数据 。 


Offset 0 12 3 4 5 6 7|18 9 A BC D E F|0123456789ABCDEF 
0007E00 EB 3C 90 4C 49 4E 55 58 34 2E 31 00 02 08 01 00 8¢.LINUX4.1..... 
0007E10 02 00 02 43 7D F8 OC 00 3F 00 FF 00 3F 00 00 00 ...C}e..?.Y.? 
0007E20 00 00 00 00 80 00 29 23 48 00 00 20 20 20 20 20 ...... )#H.. 
0007E30 20 20 20 20 20 20 46 41 54 31 32 20 20 20 FA FC FAT12 到 
0007E40 31 CO 8E D8 BD 00 7C B8 EO 1F BE CO 89 EE 89 EF 1A.0%.| ,a..A.i.i 
0007E50 B9 00 O01 F3 AS5 EA SE 7C EQ 1F 00 00 60 00 8E D8 1:..60¥é~|a... .. @ 
0007E60 BE DO 8D 66 AQ FB 80 7E 24 FF 75 03 88 56 24 C7 .BD.f .SYu. .voc 
0007E70 46 C0 10 00 C7 46 C2 01 00 E8 E9 00 46 72 65 65 FA. .CFA. .ee.Free 
D0007E80 44 4F 53 00 8B 76 1C 8B 7E 1E 03 76 OE 83 D7 
0007E90 89 76 D2 89 7E D4 8A 46 10 98 F7 66 16 O01 C6 
O007EAD D7 89 76 D6 89 7E D8 8B SE 0B B1 05 D3 EB 8B 
0007EB0O 11 31 D2 F7 F3 89 46 DO 01 C6 83 D7 00 89 76 .110-6. FD. E. XxX. 
0007ECO 89 7E DC 8B 46 D6 8B 56 D8 8B 7E DO C4 SE SA E8 .~U.FO.VO.~DA^Ze 
0007ED0 9B 00 72 2F C4 7E 5A B93 OB 00 BE F1 7D 57 F3 A6 ..r/AVZ!. .uii}Wwo! 
0007EE0 SF 26 8B 45 1A 74 0B 83 C7 20 26 80 3D 00 75 E7 _&.E.t..G &.=-.uc 
0007EF0 72 59 50 C4 5SE 5A 8B 7E 16 8B 46 D2 8B 56 D4 E8 rYPA^Z.~..FO.VOe 
0007F00 6B 00 58 72 46 1E 07 8E SE SC BF 00 20 AB 89 C6 k.XrF. 6. «.E 
0007F10 01 F6 01 C6 D1 EE AD 73 04 Bl1 04 D3 E8 80 E4 OF .6.Afi-s.+.08.8a. 
0007F20 3D F8 OF 72 E8 31 CO AB OF 1F C4 5E 5A BE 00 20 =@.relA¢..A^Z%. 
0007F30 AD 09 C0 74 24 48 48 8B 7E OD 81 E7 FF 00 F7 E7 - .AtSHH. a 
0007F40 03 46 DA 13 56 DC E8 24 00 73 E5 E8 17 00 20 65 .FU. Vies. sée.. e 
0007F50 72 72 00 30 E4 CD 16 CD 19 BA SE 24 FF 6E 5A 31 rr.0ai.i. .Synz1 
0007F60 DB B4 OE CD 10 5E AC 56 3C 00 75 F3 C3 56 89 46U0° ss 和 AVC .UOAV.F 
0007F70 C8 89 56 CA BC 46 C6 89 SE C4 B4 41 BB AA FE 
0007F80 56 24 84 D2 74 19 CD 13 72 15 D1 E9 81 DB 
0007F90 75 OD 8D 76 C0 89 SE CC 89 5E CE B4 42 EB . 
0007Fa0 4E C8 8B 56 CA BA 46 18 F6 66 1A 91 F7 F1 92 F6INE.VE.F.of..: 首 .5 
0007FB0 76 18 89 D1 88 C6 86 E9 DO C9 DO C9 8A 46 18 28 v..N.E.éDEDE.F. t 
D007FCO EO FE C4 08 El C4 5E C4 B8 01 02 8A 56 24 CD 13 apa. dA^A, .Vsi. 
0007FDO 73 06 30 E4 CD 13 EB A2 8B 46 OB F6 76 C0 01 46 s.0af.6e °F.OvA.F 
O007FED C6 83 46 C8 01 83 56 CA 00 4F 75 EA BE 46 C6 SE KE.FE..VE.O0ué.FA~ 
0007FF0 C3 4B 45 52 4E 45 4C 20 20 53 59 53 00 00 55 AA EKERNEL SYS. .Ua 

时 

图 7-12” 主 分 区 的 起 始 记 区 数据 图 
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聪明 的 你 想必 已 经 发 现 了 ,在 扇 区 偏 移 地 址 0x7E36 处 标明 着 字符 串 “FAT12”， 这 是 FAT12 文 件 系 
统 标示 符 ， 看 来 刚才 格式 化 的 FAT12 文 件 系 统 就 保存 在 此 处 ， 这 就 是 硬盘 分 区 表 的 功能 。 对 于 现今 的 
硬盘 来 说 ， 如 果 一 整 块 硬盘 分 给 一 个 系统 或 者 硬盘 分 区 使 用 ， 未 免 容量 过 大 ,不 方便 管理 。 而 硬盘 分 
区 表 则 可 以 把 硬盘 分 解 成 4 个 主 逻 辑 分 区 。 如 果 主 逻辑 分 区 是 扩展 分 区 类 型 ( 就 是 分 区 类 型 ID: 05h )， 
那么 扩展 分 区 还 可 以 再 划分 成 若干 个 扩展 分 区 ， 从 而 把 整 块 硬盘 划分 成 多 个 区 域 来 管理 。 硬 盘 分 区 表 
存在 的 明显 优势 就 是 让 不 同 操作 系统 在 硬盘 中 拥有 各 自 的 管理 区 域 。 

至 此 ，USB-FDD 启 动 模式 与 USB-HDD 启 动 模式 的 区 别 已 经 非常 明显 ， 这 也 是 软盘 和 硬盘 在 引导 
启动 上 的 区 别 ， 即 计算 机 借助 硬盘 引导 扇 区 MBR 中 的 硬盘 分 区 表 可 使 硬盘 拥有 多 个 独立 的 存储 空间 。 

介绍 了 这 么 多 关于 U 盘 启动 模式 的 知识 ， 现 在 就 来 解决 如 何 使 用 U 盘 实现 非 CHS 扇 区 寻 址 模式 的 
数据 传输 操作 ， 请 看 以 下 对 CHS 扇 区 寻 址 模式 和 LBA 扇 区 寻 址 模式 的 介绍 。 

@ CHS 扇 区 寻 址 模式 

传统 的 CHS 扇 区 寻 址 模式 ， 必 须 借 助 目 标 扇 区 号 、 磁 头号 、 磁 道 号 才能 定位 到 具体 扇 区 。 对 于 软 
盘 和 硬盘 的 扇 区 读 取 操 作 ， 使 用 BIOS 中 断 服务 程序 INT 13h 的 主 功能 号 AH=02h 即 可 ， 该 中 断 服 务 程序 
已 在 第 3 章 中 了 予以 介绍 。 值 得 补充 说 明 的 一 点 是 保存 磁盘 驱动 器 号 的 DL 寄存 器 ， 软 盘 驱 动 器 号 从 00h 
开始 ，00h 代 表 第 一 个 软盘 驱动 器 ，01h 代 表 第 二 个 软盘 驱动 器 ; 而 硬盘 驱动 右 号 则 从 80h 开 始 ，80h 代 
表 第 一 个 硬盘 驱动 器 号 ，81h 代 表 第 二 个 硬盘 驱动 器 号 。 如 果 将 BIOS 设 置 为 软盘 驱动 器 引导 ， 那 么 引 
导 程 序 所 在 的 软盘 驱动 器 就 是 第 一 个 软盘 驱动 需 〈 在 Windows 里 字母 作为 驱动 需 序 号 ， 此 时 的 软盘 驱 
动 器 号 为 A )， 所 以 DL 寄 存 吉 保存 的 驱动 器 号 为 0， 读 者 不 必 纠 结 哪个 软驱 是 A， 哪 个 软驱 是 B ， 硬 盘 
亦 是 如 此 ， 向 DL 寄 存 器 赋值 80h 即 可 。 一 旦 操作 系统 引导 启动 ， 操 作 系统 便 摆 脱 BIOS 中 断 服务 程序 的 
制约 ， 进 而 可 以 编写 驱动 程序 重新 分 配 磁盘 驱动 器 号 。 

@ LBA (Logical Block Address， 逻 辑 块 寻 址 ) 扇 区 寻 址 模式 

对 于 U 盘 和 固态 硬盘 等 没有 扇 区 、 磁 头 、 磁 道 等 物理 结构 〈 机 械 结构 ) 的 存储 介质 而 言 ， 该 如 何 
编写 它们 的 扇 区 访问 程序 呢 ? 其 实 ，BIOS 早 已 为 我 们 解决 了 这 个 问题 。BIOS 采 用 一 种 新 型 的 LBA 忆 
区 寻 址 模式 ， 可 使 用 逻辑 顺序 号 直接 访问 扇 区 。LBA 扇 区 寻 址 模式 的 逻辑 顺序 号 从 0 开始 ， 序 号 0 代表 
磁盘 的 第 一 个 扇 区 号 ( 即 引导 扇 区 MBR ), 序号 1 代表 磁盘 的 第 二 个 扇 区 号 ， 依 此 类 推 。 对 于 LBA 扇 区 
寻 址 模式 ，BIOS 在 中 断 服务 程序 INT 13h 中 引入 了 全 新 的 主 功能 号 AH=42h 来 实现 LBA 型 扇 区 读 取 操 
作 ， 该 中 断 服务 程序 的 各 寄存 器 参数 说 明 如 下 。 

INT 13h，AH=42h 功能 : 磁盘 读 取 扩 展 操作 。 

口 DL= 磁 盘 驱动 器 号 ; 

口 DS: SI=>Disk Address Packet ( 硬盘 地 址 包 )。 

此 中 断 服务 程序 扩展 了 磁盘 的 读 取 操作 ， 其 中 的 寄存 器 DS: SI 组 合成 一 个 指向 硬盘 地 址 包 结 构 的 
上 针 。BIOS 中 断 服务 程序 通过 这 个 结构 来 对 磁盘 进行 肩 区 寻 址 ， 表 7-4 是 对 硬盘 地 址 包 结构 的 解释 。 


表 7-4 ”硬盘 地 址 包 结构 


偏 移 大 小 功能 描述 
00h 1B 人 硬盘 地 址 包 大 小 ( 10h/18h ) 
01lh 1B 保留 值 (0) 


02h 2B 传输 的 扇 区 数 
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( 续 ) 
偏 移 大 小 功能 描述 
04h 4B 传输 缓存 区 地 址 ( 段 : 偏 移 ) 
08h 8B 肩 区 起 始 号 (LBA 型 ) 
10h 8B 64 位 的 传输 缓存 区 地 址 扩展 


硬盘 地 址 包 结构 可 分 为 16 B 和 24 B 两 种 长 度 。 在 16 B 型 硬盘 地 址 包 结 构 中 ， 传 输 缓 存 区 地 址 采用 
32 位 地 址 位 宽 ; 而 在 24 B 型 硬盘 地 址 包 结 构 中 ， 如 果 偏 移 04h 处 的 传输 缓存 区 地 址 值 ( 32 位 ) 为 FFFFh: 
FFFFh， 那 么 传输 缓存 区 地 址 将 采用 64 位 地 址 位 宽 。 


7.4.2 将 Boot 引导 程序 移植 到 U 盘 中 启动 


本 节 将 会 实现 U 盘 版 的 Boot 引 导 程 序 ， 这 里 将 U 盘 的 启动 模式 设置 为 USB-FDD 模 拟 软盘 启动 模 
式 ， 详 细 转换 过 程 请 参照 上 节 讲 述 的 内 容 。 在 完成 U 盘 启动 模式 的 转换 后 ， 又 因为 软盘 和 U 盘 的 存储 


容量 不 同 ， 由 此 导致 无 法 将 Boot3| 导 程序 直接 写 人 到 引导 
序 里 描述 FAT12 文 伯 
总 后 可 整理 成 表 7-5 


F 系 统 的 引导 启 


所 示 的 样子 ， 而 目 


大 区 MBR 内 。 目 前 ， 首 先 要 调整 Boot 引 导 程 
区 结构 。 在 图 7-7 和 图 7-8 中 已 经 包含 了 相关 数据 信息 ， 这 些 信息 汇 


表 7-5 “FAT12 文 件 系统 引导 扇 区 结构 对 比 表 


[ 表 中 还 包含 着 软盘 的 相关 数据 ， 可 供 读 者 参照 和 对 比 使 用 。 


名 称 偏 移 ”长 度 内 容 软盘 中 的 数据 U 盘 中 的 数据 
BS_jmpBoot 0 3 跳 转 指令 jmp short Label_ Start nop 
BS_OEMName 3 8 生产 厂商 名 'MINEbooOt' 'MINEboot' 
BPB_BytesPerSec 11 2 每 扇 区 字 节 数 512 512 
BPB_SecPerClus 13 1 每 簇 扇 区 数 于 8 
BPB_RsvdSecCnt 14 2 保留 户 区 数 1 1 
BPB NumFATs 16 1 共有 多 少 FAT 表 2 2 
BPB_RootEntCnt 17 2 根 目 录 文 件数 最 大 值 224 224 
BPB_TotSec16 19 2 户 区 总 数 2880 32130 
BPB_ Media 21 1 介质 描述 符 OxFO 0xF0 
BPB_FATSz16 2 光 每 FAT 扇 区 数 9 4 
BPB_SecPerTrk 24 2 每 磁道 扇 区 数 18 63 
BPB NumHeads 26 2 人 磁头 数 2 255 
BPB HiddSec 28 4 隐藏 扇 区 数 0 0 
BPB_TotSec32 32. 4 如 果 BPB TotSec16 值 为 0, 则 0 0 

由 这 个 值 记录 扁 区 数 
BS_DrvNum 36 1 int 13h 的 驱动 器 号 uy 0 
BS_Reserved1l 3 1 未 使 用 0 0 
BS_BootSig 38 1 扩展 引导 标记 (29h ) 0x29 0x29 


252 第 7 章 完善 BootLoader 功能 


( 续 ) 
名 称 偏 移 长度 内 容 软盘 中 的 数据 U 盘 中 的 数据 
BS_VolID 39 4 卷 序 列 号 0 0 
BS_VolLab 43 11 卷 标 'boot loader' 'boot loader' 
BS_FileSysType 54 8 文件 系统 类 型 'FAT12 ! 'FAT12 有 
引导 代码 62 448 引导 代码 、 数 据 及 其 他 信息 
结束 标志 510 2 结束 标志 0xAA55 0xARA55 OxAAS5 


根据 表 7-5 整 理 出 的 引导 扇 区 结构 对 照 信 息 ， 调 整 Boot 引 导 程 序 关 于 FAT12 文 件 系 统 的 数据 值 ， 代 


码 清单 7-1 是 调整 后 的 程序 。 


代码 清单 7-1 第 7 章 \ 程 序 \ 程 序 7-1\ 物 理 平台 \bootloader\boot.asm 


RootDirSectors 
SectorNumOfRootDirStart 
SectorNumOfFAT1Start 
SectorBalance 


jmp short Label_ Start 
nop 


BS_OEMName db 
BPB_BytesPerSec dw 
BPB_SecPerClus db 
BPB_RsvdSecCnt dw 
BPB_NumFATS db 
BPB_RootEntCnt dw 
BPB_TotSec16 dw 
BPB_Media db 
BPB_FATSz16 dw 
BPB_SecPerTrk dw 
BPB_NumHeads dw 
BPB_higddsec dd 
BPB_TotSec32 dd 
BS_DrvNum db 
BS_Reservedl1 db 
BS_BootSig db 
BS_VolID dd 
BS_VolLab db 
BS_FileSysType db 


equ 了 
equ 25 
equ 1 
equ 二 总 


'MINEboot 
0x200 

0x8 

Oxl1 

0X2 

0xe0 
0x7d82 
Oxf£0 

0XC 

0X3 工 

昌文 王 下 

0 

0 

0 

0 

29h 

0 

"boot loader' 
'FAT12 


这 段 代 码 中 的 标识 符 RootDirSectors 代 表 根 目录 占用 扇 区 数 ，FAT12 文 件 系统 的 根 目录 固定 占 


通过 引导 扇 区 占用 扇 区 数 +FAT1 表 


用 14 个 扇 区 ， 其 值 无 法 调整 。 而 标识 符 SectorNumofRootDirStart 代 表 根 目录 起 始 扇 区 号 ， 此 值 是 


占用 扇 区 数 +FAT2 表 占用 扇 区 数 计 算 而 得 ， 即 1 + 12 + 12 = 25。 


又 因为 LBA 肩 区 寻 址 模式 的 逻辑 顺序 号 从 0 开始 ， 所 以 根 目 录 的 起 始 扇 区 号 为 25。 


对 于 标识 符 sectorNumOfFAT1Start 而 言 ， 它 指定 了 FAT1 表 的 起 始 忆 区 号 ， 在 FAT1 表 前 下 
一 个 引导 扇 区 ( 占用 1 个 扇 区 的 存储 空间 )， 且 引导 扇 区 的 逻辑 顺序 号 为 0， 所 以 FAT1 表 的 起 始 扇 


风 并 
避 壕 


是 1, 这 里 要 特别 说 明 一 下 标识 符 SectorBalance, 在 此 前 的 Boot3| 导 程序 中 , 标识 符 SsectorBalance 
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是 以 每 入 1 个 扁 区 来 计算 的 ， 当 每 簇 扁 区 数 增长 为 8 后 ， 这 个 常量 值 便 不 再 适用 。 此 时 的 Boot 引 导 程序 
必须 通过 对 FAT 表 项 的 详细 计算 才能 获得 标识 符 SectorBalance 的 替代 值 ， 具 体 程 序 实现 请 参见 代码 
清单 7-2。 


代码 清单 7-2 ”第 7 章 \ 程 序 \ 程 序 7- 八 物理 平台 \bootloader\ boot.asm 


ee found loader.bin name in root director struct 


Label_FileName_Found: 


mov ep 如 [BPB_SecPerClus] 
and di, 0ffe0h 
add Gis 01ah 
ImOV ax, word [es:qdil] 
push ax 
sub (Eb: 人 忆 
mul Ci 
moV GX RootDirSectors 
add (ep. ax 

> add cx, SectorBalance 
add GX; SectorNumOfRootDirStart 
mov [=D 人 BaseOfLoader 
moV es, ax 
mov bx, OffsetOfLoader 
ImOV ax, GX 


Label_Go_On Loading_File: 


push ax 


push bx 

mov ah, 0eh 

mov Ly a 

mov Bs 0fh 

int 10h 

pop bx 

pop ax 

mov ep: [BPB_SecPerClus] 
GlL Func_ReadOneSector 
pop ax 

call Func_GetFATENntry 
cmp ax; Offfn 

之 Label_File_Loaded 


push ax 


mov Lep: [BPB_SecPerClus] 
sub sb. 2 

mul 1 

moOV dx, RootDirSectors 
add ax, dx 


> add ax, SectorBalance 
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adq ax, SectorNumOfRootDirStart 
add bx 0x1000 ;add bx, [BPB_BytesPerSecl] 
jmp Label_Go_On _ Loading_File 


Label_File Loaded: 

在 这 段 代码 中 ， 标 识 符 SectorBalance 已 经 使 用 分 号 注释 掉 ， 取 而 代 之 的 是 由 SUB 指 令 和 MUL 
指令 组 合成 的 目标 起 始 扁 区 计算 代码 ， 即 将 FAT 表 项 号 减 2 再 乘 以 每 簇 扁 区 数 ， 并 加 上 数据 区 起 始 扁 区 
号 ， 所 得 结果 便 是 目标 FAT 表 项 号 对 应 的 起 始 扇 区 号 。 

特别 注意 ， 如 果 U 盘 的 容量 过 大 ， 那 么 Boot 引 导 程 序 在 使 用 乘除 汇编 指令 时 ， 一定 要 注意 计算 结 
果 是 否 会 超过 寄存 器 的 表示 范围 ， 以 免 造 成 数值 游 出 。 

下 面 将 结合 LBA 忆 区 寻 址 模式 以 及 BIOS 为 此 模式 提供 的 中 断 服 务 程序 ， 来 重 写 鹿 区 读 取 模块 
Func_ReadoneSector， 代码 清单 7-3 是 具体 的 程序 实现 。 


代码 清单 7-3 ”第 7 章 \ 程 序 \ 程 序 7- 才 物理 平台 \bootloader\boot.asm 


Func_ReadOneSector: 


push dword 00h 


push dword eax 
push word es 
push word bx 
push word (ep:4 
push word 10h 
IOV ah, 42h ;read 
mov Gs 00h 
IOV Si sp 
int 13h 

adqd sp; 10P 
ret 


在 这 段 汇编 代码 中 ， 起初 几 行 PUSH 汇 编 指令 的 作用 是 借助 栈 地 址 空间 创建 硬盘 地 址 包 结 构 ， 剩余 
代码 负责 配置 BIOS 中 断 服 务 程序 的 参数 信息 。 在 中 断 服务 执行 结束 后 ， 房 区 读 取 模块 必须 将 栈 指针 癌 
上 移动 16 B( SP+10h ) 以 平衡 栈 地 址 空间 。 

对 于 Boot 引 导 程 序 ， 还 需 进 行 一 些微 调和 删 减 工作 ， 如 删除 重 置 软盘 驱动 器 代码 、 调 整 屏幕 显示 
程序 等 。 这 些 工作 将 留 给 读者 自行 对 照 学 习 ， 这 里 就 不 再 浪费 更 多 篇 幅 。 

至 此 ， 便 完成 了 Boot 引 导 程 序 的 修改 工作 ， 为 了 使 Boot 引 | 导 程 序 完成 Loader 文 件 的 加 载 过 程 ， 这 
里 暂且 使 用 程序 3-3 的 Loader 引 导 加 载 程序 (程序 源 文件 loader .asm )。 

执行 hake 命 令 ， 编 译 Boot 引 导 程序 和 Loader 引 导 加 载 程序 ， 以 下 是 编译 命令 ( 编译 脚本 ) 的 执行 
效果 : 

[root@localhost bootloader]# make 


nasm boot.asm -o boot.bin 
nasm loader.asm -o loader.bin 


在 程序 编译 无 误 后 ， 使 用 aa 命令 将 Boot 引 导 程 序 强制 写 人 到 U 盘 的 引导 扇 区 MBR 中 ， 执 行 效果 
如 下 : 
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[root@localhost bootloader]# dd if=boot.bin of=/dev/sdb bs=512 count=1 conv=notrunc 
1+0 records in 

1+0 records out 

512 bytes (512 B) copied, 0.000370677 s, 1.4 MB/s 


dd 命令 采用 与 操作 虚拟 软盘 相同 的 方法 来 操作 U 盘 ， 只 不 过 此 时 使 用 /dev/sab 作 为 U 盘 的 设备 节 
点 路 径 。 请 读者 务必 小 心 U 盘 设备 的 节点 名 对 应 关系 ， 不 同 操作 系统 或 运行 环境 都 会 影响 U 盘 设备 的 
节点 名 ， 所 以 在 操作 U 盘 时 必须 要 保证 节点 名 是 正确 的 。 在 Boot 引 导 程 序 完 整 写 人 到 U 盘 后 ，Loader 
引导 加 载 程序 再 复制 到 U 盘 的 文件 系统 中 。( CentOS 7 操作 系统 会 在 Boot 引 导 程 序 写 人 U 盘 后 ， 出 现 无 
法 挂 载 U 盘 或 U 盘 只 读 的 现象 ， 而 CentOS 6 操作 系统 和 Windows 操 作 系 统 则 不 会 发 生 此 类 现象 。 ) 
现在 ，U 盘 版 的 Boot 引 导 程序 已 经 准备 就 绕 ， 下 面 将 在 物理 平台 中 运行 它 。 在 运行 前 ， 请 先 确 保 
物理 平台 的 启动 模式 为 USB-FDD。 至 于 支持 动态 选择 引导 设备 的 物理 平台 (BIOS )， 在 物理 平台 启动 
时 选择 U 盘 引导 即 可 。 至 于 不 支持 动态 选择 引导 设备 的 物理 平台 ,只 能 通过 设置 BIOS 启 动 项 菜单 (类 
似 图 7-5 ) 来 实现 U 盘 引导 。 配 置 启动 项 工作 准备 就 绪 后 ， 接 下 来 便 可 拭目以待 Boot 引 导 程 序 在 物理 平 
台 上 的 执行 效果 ， 图 7-13 是 其 运行 效果 。 


Start Loader_ 


图 7-13 ”物理 平台 中 的 Boot 引 导 程 序 运行 效果 图 
此 刻 ， 这 个 Boot 引 导 程 序 已 然 如 预期 效果 运行 起 来 。 历 经 6 章 半 篇 幅 的 准备 和 学 习 ， 我 们 终于 进 
入 到 物理 平台 的 操作 系统 开发 中 ， 这 份 激动 、 兴 奋 与 艰辛 想必 只 有 在 座 的 各 位 读者 才能 体会 。 


7.5 ”在 物理 平台 上 启动 操作 系统 


既然 在 物理 平台 的 开发 之 路 上 成 功 迈 出 了 一 小 步 ， 那 么 应 该 趁 现 在 着 斗志 昂扬 、 一 鼓 作 气 将 整个 
工程 移植 到 物理 平台 上 。 这 个 移植 过 程 可 分 为 两 步 ， 首 先 移 植 Loader 引 导 加 载 程序 ， 随 后 再 微调 内 核 
程序 。 
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@ Loader 引 导 加 载 程序 部 分 

1 于 U 盘 中 的 FAT12 文 件 系 统 的 每 复 扇 区 数 从 原来 的 1 个 扇 区 增长 到 8 个 ， 以 至 于 原来 的 数据 缓冲 
区 (地 址 空间 0x7e00~0x8000 ) 没有 足够 的 空间 容纳 8 个 扇 区 的 数据 ， 所 以 Loader 引 导 加 载 程序 才 会 将 
内 核 文件 临时 缓存 区 调整 到 0x90000 地 址 处 . 此 处 只 需 将 标识 符 BaseTmpOfKernelAddr 修 改 为 0x9000 
即 可 ， 具 体 修 改 内 容 请 看 代码 清单 7-4。 


代码 清单 7-4 ”第 7 章 \ 程 序 \ 程 序 7-2\ 物 理 平 台 \bootloaderloaderasm 


BaseTmpOfKernelAddr equ 0x9000 
OffsetTmpOfKernelFile equ 0x0000 


he 


代码 清单 7-4 中 的 标识 符 BaseTmpofKernelAdadqr 和 标识 符 offsetTmpOofKernelFile 将 分 别 被 
赋值 到 段 寄存 器 DS 和 源 地 址 指针 寄存 器 ESI 中 ， 随 后 将 这 两 个 寄存 器 组 合成 的 逻辑 地 址 转换 为 线性 地 
址 ， 即 线性 地 址 = BaseTmpOfKernelAddr<< 4 二 OffsetTmpOfKernelFile = 0x90000， 此 时 的 线 
性 地 址 即 是 物理 地 址 。 

在 调整 完 内 核 临 时 缓存 区 的 起 始 地 址 后 ， 再 实现 Loader 引 导 加 载 程序 的 U 盘 扇 区 读 取 功能 便 可 完 
成 内 核 文 件 的 加 载 工作 。 既 然 Boot 引 导 程 序 已 经 实现 此 功能 ， 那 么 直接 将 相关 代码 植 到 Loader 引 导 加 
载 程序 中 即 可 。 

在 代码 的 移植 过 程 中 , 请 特别 注意 FS 段 寄 存 器 的 使 用 , 这 点 已 在 7.1.3 节 中 提 及 。 故此 要 对 源 Loader 

引导 加 载 程序 进行 修改 ， 具 体 代 码 修改 细节 如 代码 清单 7-5 所 示 。 


代码 清单 7-5 ”第 7 章 \ 程 序 \ 程 序 7-2\ 物 理 平台 \bootloader\loader.asm 


push ep 
push eax 
push fs ;must don‘t change !!!! 
push edi 
push ds 
push esi 
pop esi 
pop ds 
pop edi 
pop eax 
pop cx 


这 段 程序 删 去 了 代码 push fs 和 pop fs 对 FS 段 寄 存 右 的 操作 ， 这 也 是 虚拟 平台 (目前 上 只 针对 
Bochs-2.6.8 虚 拟 机 ) 和 物理 平台 的 一 个 差异 。 在 虚拟 平台 中 ， 如 果 FS 段 寄存 器 的 值 做 了 修改 ， 则 段 寄 
存 器 的 4 GB 寻 址 能 力 不 会 受 影响 。 而 在 物理 平台 中 ,一旦 FS 段 寄 存 器 的 值 被 修改 ,那么 FS 段 寄 存 器 的 
寻 址 能 力 马 上 变 回 1 MB ， 这 点 请 读者 们 一 定 要 注意 ! 

Loader 引 导 加 载 程序 的 剩余 修改 内 容 主 要 与 显示 芯片 有 关 。 由 于 这 部 分 内 容 比较 复杂 ， 目 前 先 讲 
解 操 作 系统 执行 主线 的 移植 工作 ， 和 暂且 跳 过 显示 芯片 相关 内 容 ， 眼 下 读者 只 要 了 解 物理 平台 的 屏幕 分 
辩 率 设置 为 1024 x 768 就 足够 使 操作 系统 正常 运行 了 。 
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为 了 演示 Loader 引 导 加 载 程序 的 运行 效 一 
程序 在 没有 调整 屏幕 分 辨 率 前 还 不 能 投入 使 


代码 清单 7-6 


{ 


第 7 章 \ 程 序 \ 程 序 7-3\ 物 理 平台 \kernel\main.c 


void Start_Kernel (void) 


时 七 一生 交 


Pos .XResolution 
Pos.YResolution 


L024 
768; 


int *addr = (int *)0Oxffff800000a00000; 


， 暂 时 将 程序 4-2 中 的 内 核 程序 作为 加 载 文件 。 这 个 内 核 
用 ， 请 读者 参照 代码 清单 7-6 来 调整 程序 的 屏幕 分 辨 率 。 


除 代码 清单 7-6 中 的 屏幕 分 辩 率 需要 调整 外 ， 页 表 的 物理 地 址 映射 还 要 注意 ， 请 看 代码 清单 7-7 所 


示 的 这 段 程序 。 


代码 清单 7-7 第 7 章 \ 程 序 \ 程 序 7- 和 物理 平台 \kernel\head.S 


.Guad 0xe0000083 VE0 O0000%y 
.Guad 0xe0200083 
.Guad 0xe0400083 
.Guad 0xe0600083 
.Guad 0xe0800083 /*0x1000000*/ 
.quad 0xe0a00083 
.Guad 0xe0c00083 
.quad 0xe0e00083 
i 499,8,0 


这 上段 程序 中 的 PDE 页 表 项 ， 不 仅 包 含有 物理 内 存 的 地 址 映射 ,同时 也 包含 了 帧 缓存 区 的 物理 基 
地 址 映射 。 值 得 注意 的 是 ， 帧 缓存 区 的 物理 基地 址 不 是 一 个 固定 地 址 值 ， 不 同 电脑 的 BIOS 会 将 帧 组 
存 区 安置 在 不 同 的 物理 地 址 空间 内 ， 甚 至 相同 型 号 的 电脑 也 会 因为 批 次 的 不 同 而 将 帧 缓存 区 的 物理 


基地 址 安置 在 不 同 空间 内 。 这 个 物理 基地 址 可 通过 BIOS 


本 章 7.6.2 节 。 


经 过 上 述 修改 后 , 将 编译 后 的 kerneLbin 文 件 复制 到 U 盘 ,然后 上 电 启 动物 理 


所 示 的 运行 效 骨 


虽然 图 中 仅 


日 
人 lo 


系统 内 核 的 引导 启动 工作 。 


至 此 ， 可 以 暂时 为 BootLoader 引 导 加 载 和 


移植 工作 。 


显示 了 4 条 短 短 的 色 带 , 但 它 却 标志 


器 


序 的 开发 工作 画 上 句号 。 接 下 来 将 继续 完成 系统 内 核 的 


! 汤 服务 程序 查询 出 来 , 更 多 细节 内 容 请 看 


平台 , 便 可 见 到 图 7-14 


Boot 引 导 程 序 和 Loader 引 导 加 载 程序 已 经 实现 了 
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图 7-14 ”Loader 引 导 程 序 执行 效果 图 


@ 操作 系统 部 分 

依据 图 7-14 描 绘 的 执行 效果 , 可 以 看 出 系统 内 核 已 经 初步 运行 起 来 , 但 这 还 不 是 全 部 的 内 核 程序 。 
现在 就 将 之 前 编写 的 内 核 程序 全 部 移植 到 物理 平台 中 。 

整个 移植 过 程 并 不 复杂 ， 只 要 保证 每 个 模块 都 能 返回 预期 的 执行 结果 便 可 认为 移植 成 功 。 按 照 程 
序 的 执行 顺序 ， 首 先 需 要 调整 内 存 初始 化 模块 的 赋值 bug， 代 码 清单 7-8 是 移植 过 程 需要 修改 的 程序 。 


代码 清单 7-8 ”第 7 章 \ 程 序 \ 程 序 7-3\ 物 理 平台 \kernel\memory.c 


void init_ memory () 


FOP 
{ 
Color_printk (ORANGE, BLACK, "Address:%#018lx\tLength:%#0181lx\tType:%#010x\n", 
p->address,p->length,p->type); 
unsigned long tmp = 0; 
if(p->type == 1) 
TotalMem += p->length; 


memory_management_struct.e820[i].address = p->address; 
memory_management_struct.e820[i].length = p->length; 
memory_management_struct.e820[i].type = p->type; 
memory_management_struct.e820_length = i; 


D++; 
if(p->type > 4 || p->length == 0 || p->type < 1) 
break; 


7.5 在 物理 平台 上 启动 操作 系统 259 


这 段 程序 主要 修正 了 memory_management_struct .€8201[i1] 结构 体 成 员 的 赋值 bug。 此 前 的 
程序 使 用 符号 += 对 该 结构 体 成 员 变 量 aqqress 和 1length 进 行 赋值 ， 如 果 原 结构 体 空间 中 存在 脏 数 
据 ， 那 将 会 使 计算 结果 有 误 ， 更 严重 的 话 可 能 会 触发 异常 ( 通常 会 触发 #PF 异 常 )。 

在 进程 创建 函数 do_fork 中 ,操作 未 初始 化 的 数据 空间 导致 处 理 带 触发 异常 的 现象 同样 存在 。 请 
按照 代码 清单 7-9 修 改 程序 。 


代码 清单 7-9 ”第 7 章 \ 程 序 \ 程 序 7-3\ 物 理 平台 \kernel\task.c 


unsigned long do_fork(struct pt_regs * regs, unsigned long clone flags, unsigned long 
stack_start, unsigned long stack_ size) 


thd->rsp0 = (unsigned long)tsk + STACK_SIZE; 

thd->rip regs->rip; 

thd->rsp (unsigned long)tsk + STACK_SIZE - sizeof (struct pt_regs); 
thd-sfs = KERNEL._DS; 

thd->gs = KERNEL._DS; 


if(!(tsk->flags & PF_KTHREAD)) 
thd->rip = regs->rip = (unsigned long)ret_system call; 


return 0; 


} 

代码 清单 7-9 加 入 了 struct thread_struct 结 构 体 成 员 变 量 的 初始 化 代码 。 这 里 的 struct 
thread_struct 结 构 体 分 配 于 栈 空间 的 最 底部 ， 紧 挨 着 task_struct 结 构 体 。 这 是 一 段 没有 初始 化 
的 内 存 空 间 ， 其 中 会 存在 脏 数据 ， 当 使 用 成 员 变 量 fs 和 gs 还 原 段 寄存 器 FS 和 GS 值 时 ， 这 些 脏 数据 很 
可 能 会 触发 处 理 器 异常 〈( 段 选择 子 引 用 错误 )。 

除 此 之 外 ， 在 一 个 运行 于 IA-32e 模 式 下 的 处 理 器 中 ， 人 处 理 器 对 GDT、IDT、TSS 描 述 符 和 TSS 等 结 
构 的 检测 会 比 虚拟 处 理 器 更 加 严格 ,故此 我 们 应 该 尽量 让 这 些 结构 的 初始 化 过 程 连贯 、 内 容 完 整 ， 否 
则 很 可 能 会 出 现 无 缘 无 故 的 重启 现象 。( 注意 : 无 故 重启 现象 不 仅仅 是 由 于 这 些 结构 未 初始 化 完全 而 
造成 的 ， 其 他 原因 也 可 能 会 造成 自动 重启 。 ) 

经 过 上 述 调整 , 本 书 操作 系统 就 真正 移植 到 了 物理 平台 上 , 图 7-15 是 其 在 物理 平台 上 的 运行 效果 。 

从 图 7-15 可 以 看 出 ， 这 个 操作 系统 在 物理 平台 的 运行 效果 与 虚拟 平台 几乎 无 异 。 当 前 物理 平台 
已 预 装 了 8 GB 的 物理 内 存 ， 经 过 对 物理 地 址 空间 信息 的 统计 ， 计 算出 操作 系统 可 用 物理 内 存 总 量 
为 0x1,F8B3,D800B=7.886 GB， 这 与 64 位 Windows 7 操作 系统 中 显示 的 “安装 内 存 (RAM ): 8 GB 
(7.89 GB 可 用 )” 基 本 相 吻 合 。 此 后 ， 本 系统 可 使 用 4036 个 2 MB 容量 的 物理 页 ， 这 是 一 件 令 人 兴奋 


的 事情 。 


虽 
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)000002 


图 7-15 ”系统 内 核 程序 执行 效果 图 (一 ) 
现在 ， 再 来 测试 一 下 键盘 中 断 请 求 信 号 的 响应 情况 。 斋 击 键 盘 按 键 ， 操 作 系 统 会 出 现 类 似 图 7-16 


)0001 


)000002 


000000040200000 000009a79f000 
:0x00000000dae9f000 )000000000100000 
0000000dafff000 0000000001000 
0000000db800000 0000004200000 
00000000ftec00000 0000000001000 ， 
:0x00000000fed10000 )000000000008000- 


0000000001000 


图 7-16 系统 内 核 程 序 执行 效果 图 (二 ) 
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到 7-16 已 经 显示 出 键盘 中 断 请 求 的 处 理 程序 ， 由 此 可 知 处 理 带 已 然 能 够 正确 捕获 并 处 理 外 部 设备 
的 中 断 请 求 。 至 此 ， 操 作 系统 移植 工作 的 主线 内 容 已 经 结束 。 对 于 跟随 本 书 开发 脚步 进行 物理 平台 开 
发 的 读者 而 言 ， 可 能 会 有 不 少 读者 无 法 在 物理 平台 运行 出 令 人 满意 的 效果 ， 普 遍 现 象 是 屏幕 无 法 显示 
图 像 ， 这 种 现象 是 由 于 未 能 正确 配置 显示 芯片 所 致 。 


对 于 显示 芯片 的 配置 问题 , 读者 大 可 放心 , 相信 经 过 下 节 对 VBE 的 学 习 后 , 这 个 问题 会 迎刃而解 。 


7.6” 细 说 VBE 功能 的 实现 


VESA (Video Electronics Standards Association ， 视 频 电 子 标 准 协会 ) 是 一 个 以 非 角 利 为 目的 的 国 
际 组 织 ， 致 力 于 制订 推广 显示 相关 的 标准 。VBE ( VESA BIOS Extension，VESA BIOS 扩 展 ) 就 是 由 
VESA 协 会 订 制 的 标准 规范 。VBE 规 范 可 使 软件 的 显示 接口 标准 化 ，VBE 接 口 订 制 的 目的 是 为 了 将 图 
攻 、 图 像 设 备 芯片 〈 硬件 ) 的 操作 简单 化 ， 这 样 可 使 操作 图 形 图 像 设备 的 应 用 程序 不 必 再 关心 硬件 设 


备 的 内 部 操作 以 及 一 些 特殊 的 图 形 图 像 知识 。 


由 于 图 形 图 像 设 备 芯片 的 配置 过 于 复杂 ， 读 者 必须 掌握 很 多 专业 知识 才能 配置 出 令 人 满意 的 效 
果 。 对 于 开发 操作 系统 的 我 们 来 说 ， 使 用 VBE 接 口 来 配置 显示 芯片 是 一 个 非常 不 错 的 选择 。VBE 是 一 


套 软件 访问 图 形 图 像 控制 器 的 标准 接口 ， 它 可 以 对 显示 分 辨 率 、 颜 色 深度 、 管 理 帧 缓存 区 等 VGA 硬 件 
标准 无 法 实现 的 功能 予以 支持 ， 同 时 它 还 为 操作 系统 提供 了 控制 刷新 速率 的 控制 器 扩展 接口 。 


7.6.1 VBE 规范 概述 


VBE 标 准 制 定 了 一 套 VGA ROM BIOS 的 扩 


展 服 务 。 这 些 服务 可 在 DOS 环 境 下 通过 INT 10h 中 断 服 


务 程序 进入 ， 或 者 直接 调用 非 DOS 操 作 系统 的 32 位 高 效 程序 人 口 。 
VESA VBE 的 主要 意图 是 提供 标准 的 软件 支持 ， 从 而 可 让 只 支持 SVGA (Super VGA ) 图 像 控 制 器 


的 PC 平台 拥有 比 VGA 人 硬件 标准 更 强大 的 功能 。 


它 提供 了 一 种 机 制 可 使 程序 操作 非 标 准 的 图 形 硬件 设 


备 ， 这 些 扩展 还 提供 了 独立 的 硬件 机 制 来 记录 供应 商 信息 ， 并 将 其 作为 OEM 供 应 商 的 可 扩展 基础 服 


务 ， 而 且 VESA 也 可 在 不 失 向 下 兼容 性 的 同时 ， 


使 软件 快速 支持 硬件 ， 并 摆脱 硬件 的 束缚 。 


VBE 可 使 高 效 运行 中 的 应 用 程序 直接 对 硬件 设备 进行 安装 和 配置 ， 从 而 进一步 提高 了 平坦 帧 组 
存在 扩展 分 辩 率 下 的 执行 性 能 。 平 坦 帧 缓存 是 VBE 3.0 引 入 的 新 式 内 存 模式 ， 它 有 别 于 传统 的 帧 存 


块 机 制 。 


从 原则 上 讲 ，VBE 标 准 希 望 能 够 运行 在 所 有 80x86 平 台 的 实 模 式 和 保护 模式 中 。 从 VBE 3.0 开 始 ， 


所 有 VBE/Core BIOS 将 支持 双 模 式 ， 可 使 运行 于 保护 模式 的 16 位 程序 直接 调用 保护 模式 的 人 口 地 址 来 


执行 VBE 功 能 。 双 模式 意味 着 ,在 保护 模式 下 调用 VBE 功 能 的 入 口 地 址 时 ，BIOS 必 须 遵 循 回 有 约定 以 


不 意味 着 32 位 代码 不 能 调用 入 口 地 址 。 


确保 其 对 所 有 操作 系统 的 兼容 性 。 在 保护 模式 下 ， 虽 然 程序 应 该 使 用 16 位 代码 来 调用 和 人口 地 址 ， 但 并 


现 以 VBE Core Functions Standard Version 3.0 为 参考 文档 ， 对 操作 系统 开发 时 涉及 的 基础 知识 进行 


逐一 讲解 [ey 


口 线性 帧 存 的 访问 。 对 于 支持 硬件 线性 帧 存 的 图 形 硬件 设备 而 言 ， 应 用 程序 只 需 一 个 供 其 写 入 数 
据 的 线性 帧 存 地 址 便 可 显示 画面 。 那么 首先 要 做 的 就 是 了 解 线性 帧 存 的 物理 地 址 , 该 物理 地 址 
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保存 在 即将 使 用 的 显示 模式 结构 ModeInfoBlock 中 。 保 护 模式 不 能 直接 使 用 此 物理 地 址 ， 在 使 
用 前 必须 将 这 个 物理 地 址 映射 到 线性 地 址 空间 , 再 将 线性 地 址 映射 到 程序 地 址 空间 后 才能 被 程 
序 所 用 。 
口 刷新 率 的 控制 。VBE 3.0 提 供 控制 刷新 率 的 功能 ， 它 允许 在 设置 显示 模式 时 ， 向 VBE 提 供 CRTC 
刷新 率 定 制 值 。 此 功能 可 为 应 用 程序 提供 最 大 的 灵活 性 来 明确 设置 CRTC 刷 新 率 。 

口 24 位 或 32 位 像素 的 真 色彩 模式 。 如 果 在 开发 过 程 中 使 用 24 位 真 色彩 描画 ， 那 么 在 描画 之 前 一 定 
要 确保 控制 器 支持 真 色彩 模式 。 真 色彩 模式 可 以 是 每 像素 24 位 ( 每 像素 点 占 3 B )， 亦 可 以 是 每 像 
素 32 位 ( 每 像素 点 占 4 B )。 在 通常 情况 下 ，32 位 真 色彩 模式 仅 需 处 理 器 执行 一 次 双 字 (4B ) 写 
操作 即 可 完成 ， 从 而 其 执行 速度 更 快 ， 但 32 位 真 色彩 模式 要 求 控制 器 至 少 拥有 2 MB 物理 内 存 。 

以 上 三 点 在 配置 显示 模式 时 可 能 会 使 用 ， 除 此 之 外 还 有 诸如 获得 显示 器 操作 边界 、 设 置 隔行 扫描 
模式 、 设 置 三 倍 缓存 区 、 使 用 立体 眼镜 、 自 动 起 始 地 址 切换 、 左 右 影 像 同 步 等 功能 ， 篇 幅 有 限 请 读者 
自行 阅读 。 

在 实 模式 下 ，VBE 借 助 BIOS 中 断 服务 程序 INT 10h 实 现 功能 调用 ， 并 使 用 80x86 的 通用 寄存 器 传递 

参数 。 从 VBE 3.0 开 始 ，VBE 已 允许 保护 模式 使 用 16 位 或 32 位 代码 ， 直 接 调 用 特殊 的 入 口 地 址 实现 功 

能 调用 。 所 有 VBE 功 能 统一 将 AH 寄存 器 赋值 为 4Fh 来 区 别 标准 VGA BIOS 功 能 ， 并 使 用 AL 寄 存 器 来 指 

定 VBE 的 功能 号 , 而 BL 寄存 器 则 用 于 指明 追加 或 扩展 的 子 功能 。 下面 就 来 讲述 VBE 提 供 的 一 些 功 能 接 

口 ， 想 必 这 也 是 读者 目前 最 想 知道 的 内 容 。 

1. 获取 VBE 状 态 
AX 寄 存 器 用 于 记录 VBE 功 能 调用 的 返回 状态 。( 32 位 保护 模式 除外 ，32 位 版 本 的 功能 调用 不 会 返 

回 任何 状态 信息 或 者 返回 码 。) 对 于 VBE 支 持 的 功能 , 程序 在 执行 功能 调用 前 应 向 AH 寄存 器 传人 4Fh， 

如 果 调 用 执行 成 功 ， 那 么 该 值 将 会 作为 返回 状态 保存 在 AL 寄存 器 中 。 如 果 VBE 功 能 执行 成 功 ，AH 寄 

存 器 将 会 返回 00h， 和 否则 AH 寄存 器 将 记录 失败 类 型 。 表 7-6 记 录 了 VBE 功 能 的 调用 失败 类 型 。 


表 7-6 VBE 返 回 状态 值 含 义 表 


寄存 器 参数 什 功能 描述 
AL 4Fh 支持 该 功能 
AL !4Fh 不 支持 该 功能 
AH 00n 操作 成 功 
AH 01h 操作 失败 
AH 02h 当前 硬件 环境 不 支持 该 功能 
AH 03n 此 功能 在 当前 图 像 模式 下 无 效 
应 用 程序 应 该 将 AH 寄存 器 返回 的 任何 非 零 值 都 作为 失败 条 件 来 看 待 ，YVBE 的 后 续 版 本 可 能 会 对 


这 些 错 误 码 进行 扩展 。 

2. VBE 模 式 号 

标准 的 VGA 模 式 号 位 宽 是 7 位 ， 目 前 的 模式 号 范围 是 00h~13h，14h~7Fh 可 由 OEM 供 应 商 自 由 定义 
显示 模式 。 自 从 VGA BIOS 功 能 00h 将 第 7 位 作为 擦 除 或 保留 显示 缓存 数据 的 标识 符 后 ， 数 值 320h~FFh 
均 保 留 使 用 。 
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为 了 区 分 7 位 的 VGA 模 式 号 ，VBE 模 式 号 的 位 宽 采 用 


通过 VBE 功 能 号 02h 来 实现 VBE 模 式 的 初始 化 。 表 7-7 是 VBE 模 式 号 各 位 的 功能 说 明 。 


表 7-7 ”VBE 模式 号 的 位 功能 说 明 表 


14 位 。 程 序 在 向 BX 寄 存 器 传人 模式 号 后 ， 再 


位 功能 描述 
D0-D8 模式 号 
如 果 D8==0， 说 明 这 不 是 VESA 定 义 的 VBE 模 式 
如 果 D8==1， 说 明 这 是 VESA 定 义 的 VBE 模 式 
D9-D12 保留 ， 必 须 为 0 
D11 刷新 率 的 控制 
如 果 D11==0， 使 用 BIOS 默 认 的 刷新 率 
如 果 D11==1， 使 用 CRTC 定 制 值 作为 刷新 率 
D12-13 保留 ， 必 须 为 0 
D14 线性 /平坦 (Linear/Flat ) 帧 缓存 区 选择 
如 果 D14==0， 使 用 区 间 / 窗 口 (Banked/Windowed ) 帧 缓存 区 
如 果 D14==1， 使 用 线性 /平坦 ( Linear/Flat ) 帧 缓存 区 
D15 保留 显示 缓存 数据 


VBE 的 起 始 模式 号 为 100h， 而 且 


如 果 D15==0， 擦 除 显 示 缓 存 
如 果 D15==1， 保 留 显示 缓存 


只 有 存在 于 VideoModeList ( 通过 VBE 的 00h 号 功能 可 查询 ) 中 的 


VBE 模 式 号 才 可 用 于 设置 。 表 7-8 是 VESA 为 VBE 预 定义 的 模式 号 。 
表 7-8 VESA 预 定义 的 VBE 模 式 号 
字符 显示 模式 
模式 号 行 列 
108h 80 60 
109h 132 25 
10Ah 132 43 
10Bh 132 50 
10Ch 132 60 
图 像 显示 模式 
模式 号 分 辩 率 颜色 种 类 
100h 640 x 400 256 
101h 640 x 480 256 
102h 800 x 600 16 
103h 800 x 600 256 
104h 1024 x 768 16 
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( 续 ) 
图 像 显 示 模 式 

模式 号 分 辩 率 颜色 种 类 
105h 1024 x 768 256 
106h 1280 x 1024 16 
107h 1280 x 1024 256 
10Dh 320 x 200 32K(1:5:5:5) 
10Eh 320 x 200 64K(5:6:5) 
10Fh 320 x 200 16.8M(8:8:8) 
110h 640 x 480 32K(1:5:5:5) 
111h 640 x 480 64K(5:6:5) 
112h 640 x 480 16.8M(8:8:8) 
113h 800 x 600 32K(1:5:5:5) 
114h 300 x 600 64K(5:6:5) 
115h 800 x 600 16.8M(8:8:8) 
116h 1024 x 768 32K(1:5:5:5) 
117h 1024 x 768 64K(5:6:5) 
118h 1024 x 768 16.8M(8:8:8) 
119h 1280 x 1024 32K(1:5:5:5) 
11Ah 1280 x 1024 64K(5:6:5) 
11Bh 1280 x 1024 16.8M(8:8:8) 


从 VBE 2.0 开 始 ，VESA 不 再 定 
的 产品 中 添加 自 定义 VBE 模 式 号 ，VESA 只 要 求 新 添加 的 模式 号 都 大 于 100h。 同 时 VESA 还 强力 建议 
BIOS 继 续 兼 容 旧 的 模式 号 ， 并 将 自 定义 模式 号 追加 到 VESA 预 定义 的 模式 号 之 后 。 

3. 获取 VBE 控 制 器 信息 


VBE 规 范 的 00h 号 功能 可 为 调 | 
制 器 的 功能 信息 、 修订 的 VBE 版 本 号 以 及 OEM 供 应 商 信息 等 ， 


会 提供 这 些 信 息 。 


在 调用 此 功能 前 ， 


义 新 的 模式 号 ,也 不 再 强 和 


VBE 要 求 向 其 提供 Vibe] 


[nfoBlock 信 


出 支持 旧 的 模式 号 。OEM 供 应 商 可 在 自己 


者 提供 已 安装 的 VBE 软 件 和 硬件 信息 ， 


莽 中 不 乏 包括 图 形 图 像 控 


所 有 文 持 VBE 功 能 的 图 形 图 像 控 制 器 都 


息 块 结构 的 起 始 地 址 ， 一 旦 执行 成 功 ， 


VBE 会 将 上 述 信 息 保存 在 VbeInfoBlock 信 息 块 内 , 不同 VBE 版 本 的 vbeInfoBlock 信 息 块 长 度 各 不 
相同 ，VBE 1.x 版 本 的 VbeInfoBlock 信 息 块 大 小 为 256 B，VBE 2.0+ 及 后 续 版 本 的 VbeInfoBlock 
信息 块 大 小 为 512 B。 表 7-9 介 绍 了 VBE 规 范 00h 号 功能 的 参数 使 用 说 明 。 


表 7-9 VBE 规范 00h 号 功能 的 参数 使 用 说 明 表 


输入 /输出 参数 功能 描述 
输入 : AX = 4F00h 获取 VBE 控 制 器 信息 
ES:DI = 指向 vbeInfoBlock 信 息 块 结构 的 起 始 地 址 
输出 : AX = VBE 返 回 状态 


注 : 必须 向 VbeInfoBlock 信 息 块 结构 的 VbeSsignature 字 段 预 设 ASCII 码 值 'VBE2' ， 才 能 者 


取 VBE 3.0 信 息 。 
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表 7-9 中 提 及 的 vbernfoBlock 信 息 块 结构 用 于 保存 VBE 控 制 器 信息 ， 表 7-10 是 vbernfoBlock 信 息 块 结 
构 各 成 员 变 量 的 功能 说 明 。 


表 7-10 vbeInfoBlock 信 息 块 结构 的 成 员 变量 功能 说 明 表 


成 员 变量 偏 移 变量 大 小 变量 个 数 /固定 值 描 述 
VbesSignature 0 1B 'VESA' (4*1B ) VBE 识 别 标志 
VbeVersion 4 2B 0300h VBE 版 本 ( BCD 码 ) 
OemStringptr 6 4B ? OEM 字 符 串 指针 
Capabilities 10 1B 4dup (?) 图 形 控制 器 的 机 能 
VideoModePtr 14 4B 2? VideoModeList 指 针 
TotalMemory 18 2B 2 64KB 内 存 块 数量 (VBE2.0+ 引 入 ) 
OemSoftwareRev 20 2B ? VBE 软 件 版 本 (BCD 码 ) 
OemVerdorNamePtr 2 4B 2 OEM 供 应 商 名 字 指 针 
OemproductNamePtr 26 4B 2 OEM 产 品名 指针 
OemproduceRevPtr 30 4B ? OEM 产 品 版 本 指针 
Reserved 34 1B 222dup (?) 保留 
OemData 256 1B 256dup (?) OEM 数 据 

注 : ?表示 任意 值 ，dup 表 示 复 制 次 数 。 
表 7-10 中 的 Vbesignature 字 段 保 存 着 ASCII 码 值 'VESA' ， 如 果 我 们 想 获 得 VBE 2.0+ 的 扩展 信息 ， 


则 必须 在 执行 系统 调用 前 预 设 ASCII 码 值 'VBE2' 。oemstringPtr 、OemVerdorNamePtr 、 
OemProductNamePtr、OemProduceRevPtr 字 上段 均 是 远 指针 ， 在 VBE 3.0 版 本 中 ， 当 Vbesignature 
预 设 ASCII 码 值 ' VBE2 ' 时 ， 这些 字符 串 可 能 会 保存 在 OemData 空 间 ; VideoModePtr 是 个 指向 模式 号 列 
表 (VBE 芯 片 能 够 支持 模式 号 ) 的 远 指 针 , 在 VBE 3.0 版 本 中 ， 当 Vibesignature 预 设 ASCII 码 值 ' VBE2' 
时 ， 这 些 字符 串 可 能 会 保存 在 Reserved 空 间 。( 一 些 模 式 号 可 能 由 于 内 存 容量 不 足 或 显示 器 协调 能 力 
不 足 ， 导 致 模式 无 法 生效 。) TotalMemory 指 示 VBE 芯 片 预 装 的 最 大 物理 内 存 容量 ， 以 64 KB 为 单位 ， 
例如 4 表示 256KB、8 表 示 512 KB。 不 同 模式 可 使 用 的 内 存 容量 不 同 ， 在 ModeInfoBlock 信 息 结构 中 会 
记录 该 模式 使 用 的 内 存 容量 。capabilities 是 VbeInfoBlock 信 息 块 最 重要 的 字段 ， 它 记录 着 图 形 环 
境 支 持 的 特性 ， 表 7-11 是 capabilities 字 段 各 位 功能 的 说 明 。 


表 7-11 capabilities 字 段 的 位 功能 说 明 表 


位 值 功能 描述 
D0= 0 DAC 固 定 宽度 ， 每 个 主 色 区 占 6 位 
1 DAC 宽 度 可 调整 为 每 个 主 色 区 占 8 位 
D1= 0 控制 器 兼容 VGA 标 准 
1 控制 器 不 兼容 VGA 标 准 
D2= 0 通用 的 RAMDAC 操 作 
1 向 RAMDAC 写 入 大 块 信息 时 ,使 用 功能 号 09h 


266 第 7 章 完善 BootLoader 功能 


( 续 ) 
位 值 功能 描述 
D3= 0 不 支持 硬件 立体 信号 
1 控制 器 支持 硬件 立体 信号 
D4= 0 立体 信号 由 扩展 的 VESA 立 体 控制 器 支持 
1 立体 信号 由 VESA EVC 控 制 器 支持 
D5:31= - 保留 


4. 获取 VBE 模 式 信息 

VBE 规 范 的 01h 号 功能 用 于 获得 指定 模式 号 ( 自 于 VideoModeList 列 表 ) 的 VBE 显 示 模 式 扩展 信息 ， 
这 些 信息 会 保存 在 一 个 名 为 ModeInfoBlock 的 结构 里 ， 结 构 长 度 为 236 B。 在 调用 此 功能 前 ，VBE 要 
求 向 其 提供 ModeIinfoBlock 结 构 的 起 始 地 址 ， 一 旦 执行 成 功 ，VBE 会 将 显示 模式 扩展 信息 保存 在 
ModeInfoBlock 结 构 体 内 。 表 7-12 介 绍 了 VBE 规 范 01h 号 功能 的 参数 使 用 说 明 。 


表 7-12 ”VBE 规范 01h 号 功能 的 参数 使 用 说 明 表 


输入 /输出 人 参 数 功能 描述 
输入 : Ss 获取 VBE 模 式 信 息 
2 模式 号 
ES:DI = 指向 ModeInfoBlock 结 构 的 起 始 地 址 
输出 : Ds VBE 返 回 状态 


表 7-12 中 提 及 的 ModeInfoBlock 结 构 用 于 保存 已 获得 的 模式 扩展 信息 ， 表 7-13 是 ModqeInfoBlock 
结构 各 成 员 变 量 的 功能 说 明 。 


表 7-13 ”ModeInfoBlock 结 构 的 成 员 变 量 功 能 说 明 表 


成 员 变 量 偏 移 大 小 数值 描 述 
所 有 VBE 版 本 强制 提供 的 信息 
ModeAttributes 0 2B ? 模式 属性 
WinAAttributes 2 1B ? 窗口 A 属性 
WinBAttributes 3 1B ? 窗口 B 属 性 
WinGranularity 4 2B ? 窗口 颗粒 度 (单位 KB ) 
WinSize 6 2B ? 窗口 大 小 (单位 KB ) 
WinASegment 8 2B ? 窗口 A 的 段 地 址 〈 实 模式 ) 
WinBSegment 10 2B ? 窗口 B 的 段 地 址 ( 实 模 式 ) 
WinFuncPptr 12 4B 2 窗口 功能 的 入 口 地 址 ( 实 模式 ) 
BytesPerScanLine 16 2B 每 条 扫描 线 占用 字 节 数 
VBE 1.2 以 上 版 本 强制 提供 的 信息 

XResolution 18 2B ? 水 平分 辩 率 (像素 或 字符 ) 
YResolution 20 2B ? 垂直 分 辨 率 ( 像素 或 字符 ) 
XCharSize 22 1B ? 字符 宽度 (像素 ) 
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( 续 ) 
成 员 变 量 偏 移 大 小 数值 描 述 
YCharSize 23 1B ? 字符 高 度 ( 像素 ) 
NumberOfPlanes 24 1B ? N 存 平面 数量 
BitsPerPixel 25 1B ? 每 像素 占用 位 宽 
NumberOfBanks 26 1B ? 块 数量 
MemoryModel 27 1B ? 为 存 模式 类 型 
BankSize 28 1B ? 块 容量 (单位 KB ) 
NumberOf ImagePages 29 1B ? 妈 像 页 数量 
Reserved 30 1B 1 为 分 页 功能 保留 使 用 
年 接 颜 色 描画 区 域 ( 支持 Direct Color 和 YUV 内 存 模式 ) 
RedMaskSize 31 1B 2 Direct Color 的 红色 屏蔽 位 宽 
RedFieldPosition 32 1B ? 红色 屏蔽 位 的 起 始 位 置 
GreenMaskSize 33 1B 2 Direct Color 的 绿色 屏蔽 位 宽 
GreenFieldPosition 34 1B ? 绿色 屏蔽 位 的 起 始 位 置 
BlueMaskSize 35 1B 2 Direct Color 的 蓝 色 屏蔽 位 宽 
BlueFieldPosition 36 1B 2 蓝 色 屏蔽 位 的 起 始 位 置 
RsvdMaskSize 37 1B ? Direct Color 的 保留 色 屏 项 位 宽 
RsvaFieldPosition 38 1B 2 保留 色 屏 蔽 位 的 起 始 位 置 
DirectColorModeTnfo 39 1B ? Direct Color 模 式 属性 
VBE 2.0 以 上 版 本 强制 提供 的 信息 
physBasePtr 40 4B ? 平坦 帧 缓存 区 模式 的 起 始 物理 地 址 
Reserved 44 4B 0 保留 ， 必 须 为 0 
Reserved 48 2B 0 保留 ， 必 须 为 0 
VBE 3.0 以 上 版 本 强制 提供 的 信息 
LinBytesPerScanLine 50 2B ? 线性 模式 的 每 条 扫描 线 占 用 字 节 数 
BnkNumberOfImagePages 52 1B ? 块 模式 的 图 像 页 数量 
LinNumberOfImagePages 53 1B 2 线性 模式 的 图 像 页 数量 
LinRedMaskSize 54 1B ? Direct Color 的 红色 屏蔽 位 宽 (线性 模式 ) 
LinRedFieldPosition 55 1B ? 红色 屏蔽 位 的 起 始 位 置 〈 线 性 模式 ) 
LinGreenMaskSize 56 1B 2 Direct Color 的 绿色 屏蔽 位 宽 ( 线性 模式 ) 
LinGreenFieldPosition 57 1B ? 绿色 屏蔽 位 的 起 始 位 置 ( 线性 模式 ) 
LinBlueMaskSize 58 1B 9 Direct Color 的 蓝 色 屏蔽 位 宽 (线性 模式 ) 
LinBlueFieldPosition 59 1B ? 蓝 色 屏蔽 位 的 起 始 位 置 (线性 模式 ) 
LinRsvdMaskSize 60 1B 2 Direct Color 的 保留 色 屏 项 位 宽 (线性 模式 ) 
LinRsvdFieldPposition 61 1B ? 保留 屏蔽 位 的 起 始 位 置 (线性 模式 ) 
MaxPixelClock 62 4B ? 图 像 模式 的 最 大 像素 时 钟 ( 单位 Hz 
Reserved 66 1B 189 dup(? ) ModeInfoBlock 剩 余 空间 


注 : ?表示 任意 值 ，dup 表 示 复 制 次 数 。 
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表 7-13 中 的 ModeAttributes 字 段 描 述 了 图 形 模式 重要 的 特性 ， 表 7-14 是 ModeAttripbutes 字 段 
各 位 功能 的 说 明 。 


表 7-14 ModeAttributes 字 段 的 位 功能 说 明 表 


位 值 功能 描述 
D0= 硬 件 配 置 0 不 文 持 硬件 配置 
1 支持 硬件 配置 
D1= 保 留 1 保留 
D2= BIOS 支 持 TTY 输 出 功能 0 BIOS 不 支持 TTY 输 出 
1 BIOS 支 持 TTY 输 出 
D3= 单 色 / 彩 色 模 式 0 单 色 模式 
1 彩色 模式 
D4= 模 式 类 型 0 文本 模式 
1 图 形 模式 
D5= VGA 兼 容 模式 0 文 持 VGA 兼 容 模式 
1 不 支持 VGA 兼 容 模式 
D6= VGA 兼 容 窗口 帧 缓存 区 模式 0 VGA 兼 容 窗口 帧 缓存 区 模式 有 效 
VGA 兼 容 窗口 帧 缓存 区 模式 无 效 
D7= 线 性 帧 缓存 区 模式 0 线性 帧 缓存 区 模式 无 效 
线性 帧 缓存 区 模式 有 效 
D8= 双 扫描 模式 0 双 扫 描 模 式 无 效 
双 扫 描 模式 有 效 
D9= 隔 行 模式 0 隔行 模式 无 效 
隔行 模式 有 效 
D10= 硬 件 三 倍 缓存 区 0 硬件 三 倍 缓存 区 无 效 
硬件 三 倍 缓存 区 有 效 
D11= 硬 件 立体 显示 器 0 硬件 立体 显示 器 无 效 
硬件 立体 显示 器 有 效 
D12= 双 显示 器 起 始 地 址 0 双 显 示 器 起 始 地 址 无 效 
双 显 示 器 起 始 地 址 有 效 


D13-D15= 保 留 


如 果 使 用 无 效 的 模式 号 进行 查询 ， 那 么 Modaeattributes 字 段 中 的 D0 位 会 标识 为 不 支持 硬件 配 
置 , 而 其 D2 位 则 标识 BIOS 是 否 支 持 TTY 的 输出 和 滚动 功能 ,如 果 D2=1 ,那么 BIOS 中 上 断 服 务 程序 INT 10h 
将 支持 表 7-15 罗 列 的 所 有 标准 输出 功能 。 
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表 7-15 ”标准 TTY 输 出 功能 


功能 号 功能 描述 功能 号 功能 描述 
01h 设置 光标 大 小 09h 在 光标 位 置 上 写字 符 和 属性 
02h 设置 光标 位 置 0Ah 在 光标 位 置 上 只 写字 符 
06h 名 上 滚动 TTY 窗 口 或 窗口 块 0Eh 在 光标 位 置 上 写字 符 ， 光 标 随 字符 前 进 
07h 句 下 滚动 TTY 窗 口 或 窗口 块 


ModeAttributes 字 段 的 D6 和 D7 位 可 协同 使 用 , 即 硬件 可 以 同时 支持 窗口 帧 缓存 区 模式 和 线性 帧 


缓存 区 模式 ， 详 细 的 缓存 


区 模式 组 合 说 明 请 参见 表 7-16。 


表 7-16 ”D6 和 D7 位 的 缓存 区 模式 组 合 说 明 表 


功能 描述 D6 D7 
窗口 帧 缓存 区 模式 0 0 
N/A 1 0 
窗口 帧 缓存 区 模式 和 线性 帧 缓存 区 模式 0 1 
线性 帧 缓存 区 模式 1 1 
表 7-13 中 的 winAAttripbutes 和 winBAttributes 字 有 段 描述 了 窗口 的 特征 ， 例 如 窗口 是 否 存在 、 


读 写 权限 等 ， 表 7-17 是 窗口 属性 各 位 的 功能 说 明 。 


表 7-17 窗口 属性 功能 说 明 表 


位 值 功能 描述 

D0= 窗 口 重 定位 0 单 窗 口 ， 不 支持 窗口 重 定位 
1 支持 窗口 重 定位 

D1= 窗 口 可 该 0 不 可 读 
1 窗口 可 读 

D2= 窗 口 可 写 0 不 可 写 
1 可 写 

D3-D7= 保 留 


ModeInfoBlock 绪 构 中 的 BytesPerscanLine 字 上 段 记 录 着 块 模 式 的 每 


数 ， 而 LinBytesPerscanLine 字 上段 则 记录 着 线性 模式 的 每 


条 逮 辑 


条 逻辑 扫描 线 占 用 字 节 


扫描 线 占用 字 节 数 。 字 段 


MemoryMode1l 保 存 着 该 显示 模式 支持 的 内 存 模式 类 型 ， 


表 7-18 罗 列 了 所 有 内 存 模式 类 型 。 


表 7-18 ”内 存 模式 类 型 表 


类 型 号 类 型 描述 类 型 号 类 型 描述 
00h Text mode 05Sh Non-chain 4,256 color 
01h CGA graphics 06h Direct Color 
02h Hercules graphics 07h YUV 
03h Planar 08h-OFh 保留 ， 由 VESA 定 义 
04h Packed pixel 10h-FFh 10EM 广 商定 义 
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早期 (VBE 1.1 或 更 早 ) 的 Direct Color 图 像 模式 采用 像素 包 的 形式 定义 每 个 像素 点 ， 诸 如 1:5:5:5 
( 每 像素 16 位 )、8:8:8( 每 像素 24 位 ) 或 8:8:8:8 (〈 每 像素 32 位 ); 自 VBE 1.2 以 后 ，Direct Color 图 像 模式 
改 用 Direct Color 内 存 类 型 ， 并 借助 ModaeInfoBlock 结 构 中 的 XXXXMaskSsize、LinXXXXMaskSize、 
XXXXFieldPosition 和 LinXxXXXFieldPosition 字 段 来 描述 像素 点 的 格式 ( 红 、 绿 、 蓝 以 及 保留 所 
占 位 域 )，BitsPerPixel 字 段 描 述 像 素 点 位 宽 。 字段 DirectcolorModeInfo 描 述 了 Direct Color 内 存 
类 型 的 重要 特征 ， 表 7-19 是 其 特征 位 的 功能 说 明 。 


表 7-19 ”Direct Color 模式 的 重要 特征 表 


位 值 功能 描述 位 值 功能 描述 
D0= 颜 色 带 0 ”颜色 带 是 固定 的 D1=Rsvd 位 区 域 0 Rsvd 位 区 域 是 保留 的 
1 ”颜色 带 是 可 编程 的 1 Rsvd 位 区 域 是 可 被 应 用 程序 
使 用 的 


ModeInfoBlock 绪 构 中 的 PhysBasePtr 字 上 段 保存 着 线性 帧 缓存 区 现代 图 形 图 像 系统 常用 的 描 


画 空间 ) 的 起 始 物 理 地 址 。 此 物理 地 址 必须 通过 页 表 映 射 转换 为 线性 地 址 后 才能 供 程序 访问 ， 不同 模 
式 的 线性 帧 缓存 区 起 始 物理 地 址 可 能 位 于 不 同 地 址 处 。 
5. 设置 VBE 显 示 模 式 
VBE 规 范 的 02h 号 功能 用 于 初始 化 图 形 图 像 控 制 器 并 设置 VBE 显 示 模 式 ， 其 中 的 VBE 模 式 号 已 在 
前 文中 予以 介绍 。 如 果 VBE 显 示 模 式 设置 失败 ，BIOS 将 继续 使 用 当前 图 形 环境 并 返回 错误 码 。 表 7-20 
介绍 了 VBE 规 范 02h 号 功能 的 参数 使 用 说 明 。 


表 7-20 VBE 规 范 02h 号 功能 的 参数 使 用 说 明 表 


输入 /输出 参 数 参 数 位 功能 描述 
输入 : AX = 4F02h 设置 VBE 显 示 模 式 
共有 芝 DO=D8 全 VBE 模 式 号 
D9 DEO. 保留 〈 必须 为 0 ) 
人 使 用 当前 刷新 率 
SS 使 用 CRTC 刷 新 率 定制 值 
1253 全 VBE/AF 保 留 使 用 ( 必须 为 0 ) 
Wt 使 用 窗口 帧 缓存 区 模式 
名 洲 使 用 线性 帧 缓存 区 模式 
DED. <0 清空 显示 内 存 数据 
= 保留 显示 内 存 数据 
ES:DI = CRTCInfoBlock 结 构 的 起 始 地 址 
输出 : 3 VBE 返 回 状 态 


从 表 7-20 可 知 , 参数 寄存 器 BX 的 D11 位 用 于 选择 刷新 率 ， 当 D11=1 时 BIOS 将 使 用 cRTCInfoBlock 
结构 来 定制 刷新 率 ， 当 D11=0 时 Es :DI 寄存 器 将 被 忽略 。 根 据 ModeInfoBlock 结 构 提 供 的 VBE 显 示 模 
式 扩展 信息 ， 可 由 参数 寄存 器 BX 的 D14 位 来 选择 帧 缓存 区 模式 ( 线性 帧 缓存 区 模式 或 窗口 帧 缓存 区 模 
式 )， 如 果 选 择 模 式 与 VBE 显 示 模 式 扩展 信息 不 符 ， 那 么 调用 将 会 以 失败 而 告终 。 表 7-21 描 述 了 
CRTCINnfoBloc k 结 构 各 成 员 变 量 的 功能 。 
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表 7-21 CRTCInfoBlock 结 构 的 成 员 变 量 功能 说 明 表 


成 员 变 量  “ 偏 移 大 小 个 数 /国定 值 《功能 描述 
HorizontalTotal 0 2B ? 全 部 水 平 像素 
HorizontalSyncStart 2 2B ? 起 始 水 平 同步 像素 
HorizontalSyncEna 4 2B ? 结尾 水 平 同 步 像素 
VerticalTotal 6 2B 2 会 部 垂直 像素 
VerticalSyncStatrt 8 2B ? 起 始 垂直 同步 像素 
VerticalSyncEnd 10 2B 2? 结尾 垂直 同步 像素 
Flags 12 1B 2 标志 
PixelClock 13 4B ? 像素 时 钟 〈 单 位 Hz ) 
RefreshRate 17 2B ? 刷新 率 ( 单位 0.01Hz ) 
Reserved 19 1B 40 dup (?) 保留 


注 : ?表示 任意 值 ; dup 表 示 复 制 次 数 。 


CRTCInfoBlock 结 构 中 的 Flags 字 段 记录 着 扫描 模式 以 及 水 平 /垂直 同步 方向 等 信息 。( 更 多 内 容 
请 参见 VBE 3.0 的 官方 白皮书 。) PixelClock 字 段 保存 着 标准 像素 时 钟 值 ， 我 们 通过 标准 像素 时 钟 值 
可 计算 出 该 图 形 模式 的 刷新 率 ， 以 下 是 刷新 率 的 计算 公式 。 
RefreshRate = - I ok - (7-1) 
HorizontalTotal x VerticalTotal 
例如 ，1024 x 768 分 辨 率 ( 图 像 显 示 模 式 ) 的 HorizontalTotal 为 1360, VerticalTotal 为 802， 
标准 像素 时 钟 为 65 MHz， 则 计算 过 程 如 下 。 


RefreshRate = 0 0 0 =59.59 Hz 
1360x802 
CRTCInfoBlock 结 构 中 的 RefreshRate 字 有 段 记录 着 图 形 模式 的 刷新 率 ， 通 过 公式 (7-1) 计 算 而 
得 ， 单 位 为 0.01 Hz。 
6. 获取 当前 VBE 模 式 
VBE 规 范 的 03h 号 功能 用 于 获取 当前 使 用 的 VBE 显 示 模 式 ， 它 只 支持 BIOS 中 断 服务 程序 调用 
不 支持 VBE 3.0 的 保护 模式 直接 调用 ， 表 7-22 是 该 功能 的 参数 使 用 说 明 。 


表 7-22 VBE 规范 03h 号 功能 的 参数 使 用 功能 说 明 表 


到 


输入 /输出 参 数 参数 位 功能 描述 
输入 : AX = 4F03h 获取 当前 VBE 模 式 
输出 : AX = VBE 返 回 状态 
也 去 BO-B13 = 模式 号 
人 窗口 帧 缓存 区 模式 
三 线性 帧 缓存 区 模式 
DIS5 = 0 设置 模式 后 清空 内 存 


So 设置 模式 后 不 清空 内 存 
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7. 保存 /还 原状 态 
VBE 规 范 的 04h 号 功能 提供 了 一 套 完整 的 机 制 来 保存 和 还 原 


/| 


形 


图 像 控制 器 的 硬件 状态 ， 此 功能 


是 VGA BIOS 中 断 服务 程序 1Ch 功 能 的 全 集 ， 表 7-23 介 绍 了 VBE 规 范 04h 号 功能 的 参数 使 用 说 明 。 


表 7-23 ”VBE 规范 04h 号 功能 的 参数 使 用 功能 说 明 表 


输入 /输出 参 数 参 数 位 功能 描述 
输入 : AX = 4F04h 保存 /还 原状 态 
De 00h 返回 保存 /还 原状 态 缓存 区 容量 
01h 保存 状态 
02h 还 原状 态 
9 请 求 状态 
D0= 保存 /还 原 硬 件 控制 器 状态 
D1= 保存 /还 原 BIOS 数 据 状 态 
D2= 保存 /还 原 DAC 状 态 
D3= 保存 /还 原 寄 存 避 状态 
BOSS 缓冲 区 指针 
输出 : 全 VBE 返 回 状态 
2 状态 缓存 区 的 块 数量 ( 每 块 64 B ) 


关于 VBE 规 范 的 内 容 就 先 介绍 到 此 ， 尽 管 这 些 只 是 VBE 的 常用 功能 ， 但 对 本 系统 目前 的 开发 需求 
而 言 ， 已 经 绰绰有余 了 。 如 果 读 者 想 要 掌握 更 多 VBE 功 能 ， 还 请 自行 学 习 和 阅读 VBE 规 范 。 


下 面 将 结合 本 系统 的 代码 实现 ， 进 一 步 学 习 VBE 功 能 在 开发 过 程 中 的 使 


用 方法 。 


7.6.2 ”获取 物理 平台 的 VBE 相关 信息 


目前 ， 我 们 的 操作 系统 已 分 为 虚拟 平台 和 物理 平台 两 个 版 本 。 这 两 版 代码 的 显示 部 分 存在 着 明显 
的 不 同 (包括 BootLoader 引 导 加 载 程序 和 内 核 程序 ) BootLoader 引 导 加 载 程序 的 不 同 之 处 在 于 两 款 了 


台 采 用 不 同 的 VBE 显 示 模 式 ， 从 而 导致 内 核 程序 的 显示 部 分 也 会 因此 发 生 调 整 。 


1/ 


本 系统 已 通过 VBE 功 能 提供 的 标准 化 功能 接口 配置 显示 模式 。 由 于 电脑 供应 商 们 提供 了 多 种 自 定 


义 的 显示 模式 ， 那么 在 配置 显示 模式 前 ， 应 该 先 了 解 各 个 平台 支持 的 显示 模式 有 哪些 。 代 码 清单 7-10 


是 虚拟 平台 下 的 显示 芯片 控制 程序 (借助 VBE 功 能 实现 )。 


代码 清单 7-10 “第 7 章 \ 程 序 \ 程 序 7-4\ 虚 拟 平台 \bootloaderloaderasm 


IOV das 0x00 
mov es, ax 
mov dE 0x8000 
IOV ax, 4F00hn 
int 10h 


cmp > 004Fh 


7.6 细 说 VBE 功能 的 实现 273 


司 ' 吕 .KO 
-Ds 
mov ax, 0x00 
mov es, ax 
moV si, 0x800e 
ImOV esi, dword [es:si] 


moV edi, 0x8200 


Label_SVGA Mode_Info_ Get: 


mov (ep: word [es:esi] 
?======= display SVGA mode information 

push ax 

IOV ax, O00h 


mov 可 十 沁 (ea 
安室 TL Label_DispAL 


mov ax, 00h 
mov al, cl 
Gal Label_DispAL 


pop ax 
cmp Sy OFFFFh 
jz Label_SVGA Mode_Info_ Finish 
mov ax, 4F01h 
1 10h 
cmp ax, 004Fh 
jnz Label_SVGA Mode_Info_FAIL 
inc dword [SVGAMoOodeCounter] 
add esi, 和 
add edi, 0x100 
jmp Label_SVGA Mode_Info_Get 


这 段 代 码 先 使 用 VBE 的 00h 号 功能 来 获取 控制 占 的 VbeInfoBlock 信 息 块 结构 , 并 将 其 保存 在 由 参 
数 寄存 器 ES:DI 指 定 的 0x8000 物 理 地 址 处 。 一 旦 此 功能 执行 成 功 , 便 可 向 Bochs 虚 拟 机 终端 命令 行 输入 
命令 x /128hx 0x8000 来 查看 VbeInfoBlock 信 息 块 结构 的 前 256 B 内 容 。 以 下 内 容 是 从 Bochs 虚 拟 机 
中 读 取 出 的 数据 信息 : 
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<bochs:2> x /128hx 0x8000 


[bochs]: 

0x0000000000008000 <bogus+ 0 0x4556 0x4153 0x0200 0x934d 0xc000 
0x0001 0x0000 0x8022 

0x0000000000008010 <bogus+t 16>: 0x0000 0x0100 0x0f00 0x0100 0x2011 
0x1301 0x0140 0x6015 

0x0000000000008020 <bogus+ 82 0x1701 0x0100 0x0101 0x0102 0x0103 
Ox0104 0x0105 0x010d 

0x0000000000008030 <bogus+ 48>: 0x010e Ox010f 0x0110 0x0111 0x0112 
0x0113 Ox0114 0x0115 

0x0000000000008040 <bogus+ 64>: 0x0116 O00LLY 0x0118 0x0140 0x0141 
0x0142 0x0143 0x0144 

0x0000000000008050 <bogus+ 80>: 0x0146 0x0175 0x0176 0x0177 0x018d 
0x018e Ox018f Oxffff 

0x0000000000008060 <bogus+ 96>: 0x2041 Ox4304 0x0440 Ox6045 0x4704 
0x0480 0xa049 0x4b04 

0x0000000000008070 <bogus+ Ds 0x04c0 0xe04d 0x4f04 0x0500 0x2051 
0x5305 0x0540 0x6055 

0x0000000000008080 <bogus+ 2 8 0xff05 Ox000f 0x0000 0x0000 0x0000 
0x0000 0x0000 0x0000 

0x0000000000008090 <bogus+ 144>: 0x0000 0x0000 0x0000 0x0000 0x0000 
0x0000 0x0000 0x0000 

0x00000000000080a0 <bogus+ TL.6038 0x0000 0x0000 0x0000 0x0000 0x0000 
0x0000 0x0000 0x0000 

0x00000000000080b0 <bogus+ 17.658 0x0000 0x0000 0x0000 0x0000 0x0000 
0x0000 0x0000 0x0000 

0x00000000000080c0 <bogus+ 192>: 0x0000 0x0000 0x0000 0x0000 0x0000 
0x0000 0x0000 0x0000 

0x00000000000080d0 <bogus+ 208>: 0x0000 0x0000 0x0000 0x0000 0x0000 
0x0000 0x0000 0x0000 

0x00000000000080e0 <bogus+ 2243: 0x0000 0x0000 0x0000 0x0000 0x0000 
0x0000 0x0000 0x0000 

0x00000000000080f0 <bogus+ 240>: 0x0000 0x0000 0x0000 0x0000 0x0000 


Ox0000 Ox0000 Ox0000 


ee 10 描 述 的 信息 块 结构 进行 格式 化 ， 便 生成 表 7-24 所 示 的 
VbeInfoBlock 信 息 块 结构 对 有 照 表 。 


表 7-24 VbeInfoBlock 信 息 块 结构 对 照 表 (虚拟 平台 ) 


成 员 变 量 偏 移 大 小 返回 结果 值 功能 描述 
VbesSignature 0 1B 'VESA' (4*1B) VBE 识 别 标志 
VbeVersion 4 2B 0200h VBE 版 本 ( BCD 码 ) 
OemStringptr 6 4B C000934Dh OEM 字 符 串 指针 
Capabilities 10 4B 00000001h 图 形 控制 器 的 机 能 
VideoModePtr 14 4B 00008022h VideoModeList 指 针 
TotalMemory 18 2B 0100h 64 KB 内 存 块 数量 
OemSoftwareRev 20 2B 0f00h VBE 软 件 版 本 (BCD 码 ) 
OemVerdorNamePtr 0 4B 20110100h OEM 供 应 商 名 字 指 针 
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( 续 ) 
成 员 变 量 偏 移 大 小 返回 结果 值 功能 描述 
OemproductNamePtr 26 4B 01401301h OEM 产 品名 指针 
OemProduceRevPtT 30 4B 17016015h OEM 产 品 版 本 指针 
Reserved 34 222B 略 此 处 为 模式 号 


从 表 7-24 可 以 看 出 ，Bochs 虚 拟 机 安装 的 VBE 显 示 控 人 


判 芯片 版 本 为 2.0， 此 表 中 最 为 重要 的 成 员 变 


量 是 VideoModePtr， 它 记录 着 模式 号 列表 (VBE 芯 片 能 够 支持 模式 号 ) 的 起 始 地 址 ， 此 处 Viaeo 
ModePtr 指 向 物理 地 址 0x8022 处 ， 即 指向 Reserved 字 段 的 地 址 空间 。 


在 获取 到 vibeInfoBlock 信 息 


块 结构 后 , 我 们 有 
行 逐 一 人 遍历， 以 获取 每 个 模式 号 的 ModeIn 
0x8200 处 的 内 存 空间 内 ， 每 个 ModeInfoB1 


以 查看 到 ModeInfoBlock 结 构 内 的 数据 信息 。 
由 于 不 同 版 本 的 Bochs 虚 拟 机 所 支持 的 模式 号 各 不 相同 ， 所 以 本 书 提供 VBE 数 据 信 息 文件 


foBloc 


DataSheet .xlsx ， 此 文 件 
ModeInfoBlock 结 构 信息 。 


1 记录 了 Bochs 虚 拟 机 2.6.6 、2.6.8 两 
也 许 这 些 数据 与 读者 查询 出 的 数据 信息 不 一 致 ， 出 于 保险 起 见 还 以 读者 


借助 VBE 的 01h 号 功能 对 VBE 芯 片 支持 的 模式 号 进 
k 结 构 。 这 些 ModeInfoBlock 结 构 保存 在 物理 地 址 
ock 结 构 占 用 256 B。 使 用 Bo 


chs 虚 拟 机 的 终端 命令 x 同样 可 


个 版 本 的 VbeInfoBlock 与 


查询 出 的 数据 信息 为 准 。 表 7-25 罗 列 出 了 虚拟 平台 中 的 ModeInfoBlock 结 构 信 息 的 关键 成 员 变 量 。 
表 7-25 ModeInfoBlock 的 部 分 信息 对 照 表 (虚拟 平台 ) 


模式 号 成 员 变 量 偏 移 ”大 小 返回 结果 值 功能 描述 

0x180 XResolution 18 2B 0x5A0=1440 水 平分 辨 率 ( 像素 或 字符 ) 
YResolution 20 2B 0x384=900 垂直 分 辨 率 ( 像素 或 字符 ) 
BitsPerPixel 25 1B 0x20 每 像素 占用 位 宽 
MemoryMode 27 lB 6 内 存 模式 类 型 
DirectColorModeInfo 39 1B 2 Direct Color 模 式 属性 
PhysBasePtr 40 4B OxE000,0000 平坦 帧 缓存 区 模式 的 起 始 物理 地 址 

0x186 XResolution 18 2B 0x690=1680 水 平分 辩 率 ( 像素 或 字符 ) 
YResolution 20 2B 0x41A=1050 垂直 分 辩 率 ( 像素 或 字符 ) 
BitsPerPixel 25 1B 0x20 每 像素 占用 位 宽 
MemoryMode 27 lB 6 内 存 模式 类 型 
DirectColorModeInfo 39 1B 2 Direct Color 模 式 属性 
PhysBasePtr 40 4B 0xE000,0000 平坦 帧 缓存 区 模式 的 起 始 物理 地 址 

本 操作 系统 将 采用 Direct Color 内 存 类 型 、 每 像素 占用 32 位 ， 表 7-25 是 众多 符合 要 求 的 模式 号 中 分 


辩 率 最 大 的 两 个 模式 号 。 


对 比 Bochs 虚 拟 平台 的 VBE 数 据 信息 ，X220T 物 理 平台 的 VBE 数 据 信 ， 
数据 信息 的 获取 过 程 分 解 为 三 个 步 又。 首先 ，Loader 引 导 加 载 程序 使 月 
控制 器 信息 ， 详 细 程序 实现 请 参见 代码 清单 7-11。 代 码 


息 会 与 之 有 所 不 同 。 现 将 VBE 


月 VBE 的 00h 号 功能 来 获取 VBE 
1 被 ;注释 掉 的 部 分 用 于 显示 获取 到 的 数据 信 
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息 ， 由 于 比较 耗费 性 能 ， 暂 时 注释 掉 了 ， 请 读者 根据 需要 ， 有 选择 性 地 使 用 ， 这 条 说 明 适 用 于 物理 平 
台 的 所 有 VBE 数 据 信息 提 取 程 序 。 


代码 清单 7-11 第 7 章 \ 程 序 \ 程 序 7-4\ 物 理 平台 \bootloader\loader.asm 


TOV ax, 0x00 
mov es, ax 
IOV di, 0x8000 
IOV ax, 4F00hn 
int 10h 
cmp > > 004Fh 
可 马 .KO 

KOs 
IOV ax, 0x00 
mov es, ax 
mov si, 0x8000 
moOV CX， DO ed Se 


LOOP_Disp_VBE_Info: 


mov dx 00h 

mov al, byte [es:si] 
call Label_DispAL 

add si, 1 


loop LOOP_Disp_VBE_Info 


mov Cs 0x55aa 
push ax 

IOV dx 00h 
mov > ch 
call Label_DispAL 
mov sy 00h 
mov al, (eb 
call Label_DispAL 
pop ax 


这 上段 代码 将 VBE 的 控制 器 信息 (VibeInfoBlock 信 息 块 结构 ) 保存 到 物理 地 址 0x8000 处 ， 随 后 使 
用 Labe1_Di spAL 模 块 将 遍历 出 信息 打印 在 屏幕 上 ， 并 以 字符 55AA 作 为 数据 分 割 标志 。 此 处 仅 打 印 了 
VbeInfoBlock 信 息 块 结构 前 22 B ( 汇编 代码 mov cx，22h ) 的 数据 内 容 ， 因 为 剩余 数据 均 为 OEM 供 
应 商 信 息 , 为 了 节省 屏幕 的 显示 空间 便 不 再 打印 , 读者 可 根据 实际 情况 调整 数据 的 显示 长 度 。 将 这 22 B 
数据 格式 化 为 VbeInfoBlock 信 息 结构 ， 可 生成 表 7-26 描 述 的 VbeInfoBlock 信 息 块 结构 对 照 表 。 
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表 7-26 ”VbeInfoBlock 信 息 块 结构 对 照 表 “物理 平台 ) 


成 员 变 量 偏 移 大 小 返回 结果 值 功能 描述 
VbeSignature 0 1B 'VESA' (4*1B) VBE 识 别 标志 
VbeVersion 4 2B 0300h VBE 版 本 ( BCD 码 ) 
OemStringptr 6 4B C0007B20h OEM 字 符 串 指 针 
Capabilities 10 4B 00000001h 图 形 控制 器 的 能 力 
VideoModePtr 14 4B C0007BE7h VideoModeList 指 针 
TotalMemory 18 2B 03FFh 64 KB 内 存 块 数量 
OemSoftwareRev 20 2B 0000h VBE 软 件 版 本 ( BCD 码 ) 
OemVerdorNamePtr 22 4B 00000000h OEM 供 应 商 名 字 
OemProductNamePtT 26 4B 00000000h OEM 产 品名 
OemproduceRevPtr 30 4B 00000000h OEM 产 品 版 本 
Reserved 34 222B 略 此 时 为 0 


从 表 7-26 可 以 看 出 ，VbeInfoBlock 信 息 结构 的 VideoModePtr 字 段 指向 物理 地 址 Cc0007BE7h 
处 。 由 于 物理 平台 的 VBE 版 本 为 3.0， 我 们 可 在 Vibesignature 字 段 中 预 设 ASCII 码 值 'VBE2',， 将 VBE 
支持 的 模式 号 列表 保存 在 Reserved 空 间 内 。 亦 可 通过 VBE 的 01h 号 功能 遍历 所 有 VBE 模 式 号 ， 并 记录 

下 查询 成 功 的 模式 号 。 本 系统 采用 第 二 种 方法 来 获取 模式 号 ， 代 码 清单 7-12 实 现 了 这 一 遍历 过 程 。 


代码 清单 7-12 ”第 7 章 \ 程 序 \ 程 序 7-4\ 物 理 平台 \bootloader\loader.asm 


moV Cx, ORE Ey 


LABEL_Get_Mode List: 


add GK 下 
cmp ap 0x200 
jz LABEL_Get_Mode_Finish 
mov ax, 4F01h 
ImOV edi, 0x8200 
int 10h 
cmp a 004Fh 
-的 六 LABEL_Get_Mode_List 
; push ax 
mov ax, 00h 
mov ls ch 
call Label_DispAL 
> mov ax, 00h 
? mov al, Cl 
call Label_DispAL 


了 pop ax 
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jmp LABEL_ Get_Mode_ List 


LABEL_Get_Mode_Finish: 


mov 人 0x55aa 
push ax 

IOV ax, 00h 
mov ls 名 广 
call Label_DispAL 
IOV 司 过 ” 00h 
mov al, 1 
call Label_DispAL 
pop ax 


代码 清单 7-12 通 过 获取 VBE 模 式 信 息 的 方式 ， 将 获取 成 功 的 模式 号 显示 ( 使 用 Label_DispaAL 模 
块 ) 在 屏幕 中 , 同样 以 字符 55AA 作 为 数据 分 割 标志 , X220T 物 理 平台 支持 的 模式 号 有 : 0x0101、0x0103、 
Ox0105、0x0107、0x0111、0x0112、0x0114、0x0115、0x0117、0x0118、0x011A、0x011B、0x013A、 
0x013C、0x014B、0x014D、0x015A、0x015C、0x0160、0x0161、0x0162、0x0163、0x0164、0x0165、 
0x0166、0x0167、0x0168、0x0169、0x016A、0x016B、0x016C、0x016D、0x016E、0x016F、0x0170、 
0x0171 、0x017D 、0x017E 、0x017F 、0x01FF 。 当 确定 物理 平台 可 用 的 模式 号 后 ， 我 们 再 使 用 代码 清 
单 7-13 来 遍历 各 模式 号 的 ModeInfoBlock 结 构 。 


代码 清单 7-13 ”第 7 章 \ 程 序 \ 程 序 7-4\ 物 理 平台 \bootloader\loader.asm 


mov CXy 0x118 de 
mov ax, 4F01n 

mov edi, 0x8200 

int 10h 


push ax 


IOV ax, 00h 
mov > ch 
call Label_DispAL 
IOV dx 00h 
mov al, cl 
call Label_DispAL 
pop ax 

mov CX 0x55aa 
push ax 

IOV ax, 00h 
mov al, es 
call Label_DispAL 
IOV Gh 00h 
mov EE Gl 
call Label_DispAL 
pop ax 

TOV si, 0x8200 
mov Cx, 128 


LOOP_Disp_Mode_Info: 
IOV dX 00h 
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mov al, byte [es:si] 
call Label_DispAL 
add si, 1 
loop LOOP_Disp_Mode_Info 
jmp $ 
jmp Label_SVGA Mode_Info_Finish 
代码 清单 7-13 依 然 使 用 VBE 的 01h 号 功能 来 获取 指定 模式 号 的 ModeInfoBlock 结 构 ， 并 将 相关 数 
据 显 示 在 屏幕 上 。 此 处 请 读者 注意 ， 虽 然 通 过 代码 清单 7-12 可 获得 物理 平台 支持 的 模式 号 ， 但 并 非 所 


有 模式 号 都 能 获得 ModeInfoBlock 结 构 ， 某 些 模 式 号 的 获取 操作 能 够 执行 成 功 ， 可 反馈 回来 的 却 是 
无 效 数据 。 而 且 ， 在 不 同 物理 平台 下 ， 同 一 模式 号 的 ModeInfoBlock 信 息 也 会 不 同 。 

表 7-27 是 模式 号 0x118 的 部 分 ModeInfoBlock 人 信息， 更 多 信息 同样 请 读者 参见 VBE 数 据 信息 文件 
DataSheet .XLSXo 


表 7-27 模式 号 0x118 的 部 分 ModeInfoBlock 信 息 对 照 表 物理 平台 ) 


模式 号 成 员 变 量 偏 移 大 小 返回 结果 值 功能 描述 

Ox118 XResolution 18 2B 0x400=1024 水平 分辨 率 ( 像素 或 字符 ) 
YResolution 20 2B 0x300=768 垂直 分 辨 率 ( 像素 或 字符 ) 
BitsPerPixel 25 1B 0x20 每 像素 占用 位 宽 
MemoryMode 27 1B 6 内 存 模 式 类 型 
DirectColorModeInfo 39 1B 0 Direct Color 模 式 属性 
PhysBasePptr 40 4B 0xE000,0000 平坦 帧 缓存 区 模式 的 起 始 物 理 地 址 


特别 注意 ， 对 于 同系 列 同 型 号 不 同 批 次 的 物理 平台 而 言 ， 同 一 模式 号 的 ModeInfoBlock 信 息 可 
能 不 尽 相 同 。 最 明显 的 成 员 变 量 是 PhysBasePtr， 同 样 是 X220T 物 理 平台 ， 有 的 PhysBasePtr 值 是 
0xE000,0000， 而 有 的 PhysBasePtr 值 则 是 0xc000,0000。 因 此 请 读者 以 实际 检测 数据 为 准 ， 不 要 
言 目 使 用 本 节 提 供 的 数据 。 

通过 本 节 学 习 ， 相 信 读 者 已 经 掌握 查询 VBE 数 据 信 息 的 编程 技巧 。 获 取 所 有 模式 号 的 Mode- 
InfoBlock 信 息 已 然 只 是 时 间 问 题 ， 非 常 期 待 你 们 的 成 功 。 


7.6.3 设置 显示 模式 


我 们 虽 已 遍历 出 诸多 模式 号 的 ModeInfoBlock 信 息 ,， 但 要 从 众多 可 用 模式 号 中 挑选 出 最 理想 的 
显示 模式 却 无 从 着 手 。 至 于 模式 号 的 选择 ， 自 然 要 从 实际 情况 和 需求 着 手 。 现 以 本 操作 系统 为 例 ， 可 
以 参考 以 下 几 点 。 

首先 ， 要 选择 合适 的 MemoryMode， 目 前 较为 常用 的 或 便于 编程 的 内 存 模式 类 型 是 Direct Color 内 
存 类 型 。Direct Color 内 存 类 型 由 RGB 三 种 基色 值 组 成 ， 常 见 的 有 24bit Direct Color 和 32 bit Direct Color 
两 种 颜色 格式 。 它 们 均 可 表现 2” 种 颜色 。 不 同 的 是 ，24 bit Direct Color 颜 色 格式 的 每 个 像素 点 占 3B， 
必须 经 过 两 次 颜色 赋值 操作 才能 完成 颜色 值 填充 ;而 32 bit Direct Color 颜 色 格 式 的 每 个 像素 点 占 4B， 
只 需 进 行 一 次 颜色 赋值 操作 就 可 实现 颜色 值 填 充 ， 相 比 之 下 ， 图 像 描绘 速度 快 近 一 倍 ( 图 像 描 绘 的 速 
度 越 快 ， 画 面 越 流 畅 )。 故 此 ， 选 择 MemoryMode=6 和 BitspPerPixel=0x20 的 模式 号 为 上 策 。 
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其 次 ， 对 于 运行 在 IA-32e 模 式 的 操作 系统 而 言 ， 操 作 系 统 不 应 该 再 依靠 BIOS 中 断 服务 程序 ( 实 模 
式 ) 来 描绘 图 形 图 像 。 那 么 操作 系统 只 有 使 用 线性 帧 缓存 区 模式 ( 通过 页 管理 机 制 将 物理 地 址 映射 到 
线性 地 址 空间 ) 才 可 在 IA-32e 位 模式 下 操作 帧 缓冲 区 。 当 然 ， 在 显示 芯片 支持 的 前 担 下 ， 分 辩 率 越 大 
者 效果 更 佳 。 

最 后 ， 在 设置 显示 模式 的 过 程 中 ， 为 了 达到 理想 的 显示 效果 ， 应 尽量 将 帧 缓存 区 内 的 数据 清空 
如 果 有 特殊 要 求 ， 不 保留 如 由 缓存 区 内 的 数据 也 是 可 以 的 。 对 于 画面 流畅 度 要 求 较 高 的 读者 来 说 ， 他 可 
在 设置 显示 模式 时 使 用 CRTC 刷 新 率 定制 值 ， 否 则 使 用 默认 刷新 率 即 可 。 

综 上 所 述 ， 在 设置 显示 模式 〈 使 用 VBE 的 02h 号 功能 ) 时 ， 可 参照 表 7-28 提 供 的 位 值 来 向 BX 寄存 
器 传递 参数 。 


表 7-28 VBE 规 范 02h 号 功能 的 BX 人 参数 寄存 器 位 配置 表 


参数 参数 位 值 功能 描述 

BX = D0-D8 = 1XXh VBE 模 式 号 
D9-D10 = 0 保留 ， 必 须 为 0 
D11 = 0 使 用 当前 默认 刷新 率 
D12-13 = 0 VBE/AF 保 留 使 用 ， 必 须 为 0 
D14 = 加 使 用 窗口 帧 缓存 区 模式 
D15 = 0 清空 显示 内 存 


模式 号 180h 是 Bochs 虚 拟 平台 选用 的 显示 模式 ， 将 此 模式 号 结合 表 7-28 提 供 的 位 值 ， 最 终 确定 向 
BX 参数 寄存 器 传递 数值 为 4180h。 代 码 清单 7-14 记 录 了 VBE 显 示 模 式 的 设置 过 程 。 


代码 清单 7-14 第 7 章 \ 程 序 \ 程 序 7-4\ 虚 拟 平 台 \bootloader\loader.asm 


汉 二 二 二 三 二 宇 三 set the SVGA mode (VESA VBE) 
mov 已 区 7 4F02n 
mov bx, 4180nh 二 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 三 站 于 各 全 玉生 | 生 D OE Oxid3 
int 10h 
cmp Xs 004Fh 
jnz Label_SET_SVGA Mode_VESA_ VBE_FAIL 


这 段 代 码 一 目 了 然 , 通过 VBE 的 02h 号 功能 设置 图 形 图 像 控 制 器 的 显示 模式 (模式 号 为 180h )。 此 
上 示 模 式 采 用 线性 帧 缓冲 区 模式 ， 并 在 开始 时 清空 帧 缓存 区 内 的 数据 。 在 模式 设置 操作 执行 结束 后 ， 
程序 还 需要 根据 AX 寄 存 器 的 返回 值 判 断 操作 是 否 成 功 。 
物理 平台 的 显示 模式 设置 过 程 与 虚拟 平台 是 一 样 的 ， 只 需 将 模式 号 改 为 118h 即 可 。 代 码 清 单 7-15 
是 物理 平台 显示 模式 的 设置 过 程 。 


代码 清单 7-15 ”第 7 章 \ 程 序 \ 程 序 7-4\ 物 理 平台 \bootloader\loader.asm 


大 Set the SVGA mode (VESA VBE) 


了 


巴 


IOV bx, 4118h 有 
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int 10h 

cmp 区 004Fh 

bad Label_SET_SVGA Mode_VESA_ VBE_FAIL 
特别 注意 


， 某 些 模 式 号 虽 可 以 获取 ModeInfoBlock 信 息 ， 也 能 够 借助 代码 清单 7-15 成 功 的 设置 
示 模 式 ， 但 无 法 达到 预期 的 显示 效果 。 因 此 ， 虽 然 诸多 模式 号 遍历 出 ， 但 经 过 层 层 筛选 后 ， 能 够 用 于 
编程 的 模式 号 却 届 指 可 数 。 

至 此 , 本章 的 内 容 已 经 讲解 结束 。 本 章 不 仅 补充 和 扩展 了 BootLoader 引 导 加 载 程序 的 功能 , 同时， 


它 还 是 实现 了 从 虚拟 平台 跨越 到 物理 平台 的 里 程 碑 。 此 后 的 章节 将 以 物理 平台 作为 主 开发 环境 ， 而 虚 
拟 平台 只 在 必要 时 用 于 辅助 讲解 。 


第 8 章 


本 章 将 会 继续 对 初级 篇 中 的 内 核 主 程序 进行 功能 性 补充 ， 并 对 操作 系统 的 地 址 空间 划分 情况 以 及 


此 前 遗漏 的 编译 、 链 接 等 知识 予以 补充 说 明 。 


通过 本 章 的 学 习 ， 相 信 读 考 会 解 开 内 核 程序 在 编译 和 链接 过 程 中 的 诸多 困惑 ， 并 能 够 独立 查询 出 


当前 使 用 的 处 理 器 型 号 、 处 理 器 商标 等 信息 。 


8.1 内 核 主 程序 功能 概述 


如 前 所 述 ,内 核 主 程序 与 普通 应 用 程序 的 主 函数 极其 相似 ， 只 不 过 内 核 主 程序 不 会 以 正常 的 return 
方式 返回 。 如 果 内 核 主 程序 返回 或 者 执行 结束 ， 基 本 上 说 明 此 系统 的 大 限 将 至 生命 周期 将 尽 )。 
以 Linux 内 核 为 例 ， 在 运行 内 核 主 程序 之 前 ， 内 核 通常 会 执行 一 小 段 汇 编程 序 ( 像 本 操作 系统 中 


的 head.S 文 件 ) 来 初始 化 系统 内 核 基 础 数据 结构 ( 处理 咒 体系 结构 有 关 数 据 )， 随 后 再 去 执行 内 核 主 程 


序 。 内 核 主 程序 负责 解析 BootLoader 传 递 过 来 的 数据 ， 并 调用 各 个 子 模块 的 初始 化 程序 ( 函数 ) 接着 
为 系统 创建 出 第 一 个 进程 init， 同 时 将 处 理 器 的 执行 权 移交 给 init 进 程 。 此 时 ， 内 核 主 程序 将 变 成 idle 


进程 ， 只 要 系统 空闲 ， 便 会 唤醒 idle 进 程 ， 使 其 进入 待机 状态 以 减少 系统 功 耗 。 本 : 


参照 此 过 程 来 实现 。 


的 系统 内 核 也 会 


在 内 核 主 程序 中 ， 各 个 子 模块 的 初始 化 顺序 并 不 是 固定 的 或 硬性 要 求 的 。 以 个 人 观点 来 看 ， 各 个 


模块 的 初始 化 顺序 主要 以 使 用 该 模块 的 紧迫 性 作为 排序 依据 ， 例 如 本 书 系统 内 核 的 异常 处 理 模块 和 内 


存 管理 模块 ， 它 们 的 初始 化 顺序 其 实 是 可 以 互 换 的 , 但 是 为 了 能 够 快速 分 析出 错误 原因 ， 这 里 选择 先 


初始 化 异常 处 理 模 块 。 


8.2 操作 系统 的 Makefile 编译 脚本 


如 果 各 位 读者 没有 使 用 本 书 自 带 的 Makefile 编 译 脚 本 去 编译 系统 程序 ， 那 么 在 编译 链接 过 程 中 很 


容易 出 现 各 种 问题 。 例 如 ， 在 本 操作 系统 中 进行 程序 链接 时 ， 如 果 选 项 修饰 缺少 ， 


疏 


了 么 链接 融 很 可 能 


会 报 出 relocation truncated to fit: R_X86_64_ 32 against ' .text' 等 错误 ， 导 致 无 法 生 
成 目标 文件 。 而 对 于 普通 应 用 程序 来 说 ， 可 能 只 使 用 gcc -o 命 令 就 可 以 完成 整个 编译 、 链 接 过 程 ， 
这 也 是 操作 系统 区 别 于 普通 应 用 程序 的 地 方 之 一 。 因 此 ， 就 有 必要 特殊 讲解 一 下 操作 系统 的 Makefile 


太 生 骨 


NSN 


编译 脚本 ， 如 代码 清单 8-1 所 示 。 
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代码 清单 8-1 第 8 章 \ 程 序 \ 程 序 8-1\ 物 理 平台 \kernel\Makefile 


all: System 


objcopy -I elf64-x86-64 -S -R".eh frame" -R".comment" -0 binary System Kernel .bin 


system: head.o entry.o main.o printk.o trap.o memory.o interrupt.o task.o 
ld -b elf64-x86-64 -z muldefs -o System head.o entry.o main.o printk.o trap.o 


memory.o interrupt.o task.o -T Kernel.lds 


head.o: head.s 
gcc -E head.Ss > head.s 
as --64 -o head.o head.s 


entry.o: entry.s 
gcc -E entry.S > entry.s 
as --64 -o entry.o entry.s 


main.o: main.c 
gcce -mcmodel=large -fno-builtin -m64 - 


printk.o: printk.ce 
gcce -mcmodel=large -fno-builtin -m64 - 


taDOY brad 
gcce -mcmodel=large -fno-builtin -m64 - 


memory.o0: memory.c 
gcce -mcmodel=large -fno-builtin -m64 - 


interrupt.o: interrupt.c 
gcce -mcmodel=large -fno-builtin -m64 - 


task.o: task.c 
gcce -mcmodel=large -fno-builtin -m64 - 


clean: 


C main.c 


C printk.c 


ea oe: 


Cc memory.c 


c interrupt.c 


C task.c 


rm -rf *.O *.S~ *.S *.S~ *.c~ *.h~ system Makefile~ Kernel.lds~ kernel.bin 


代码 清单 8-1 中 的 Makefile 编 译 脚本 负责 编译 本 系统 内 核 程序 ， 其 中 不 乏 使 用 了 as、gcc、1d、 


objcopy 等 命令 ， 下面 将 对 这 些 命令 逐个 进行 讲解 。 


口 as 命 令 ， 其 格式 为 as [选项 ] 汇编 文件 ， 以 下 选项 将 在 本 系统 编译 过 程 中 使 用 。 


四 --32/--64。 它 生成 32/64 位 代码 。 


上 -o OBJFILE。 它 将 编译 生成 的 目标 二 进 制程 序 段 保存 在 0BJFILE 文 件 内 ，OBJFILE 的 默认 


文件 名 为 a.out。 
实例 解析 : 


as --64 -o entry.o entry.s 


这 条 命令 的 作用 是 把 汇编 源 文件 entry .s 编 译 成 64 位 的 二 进 制程 序 段 ， 并 将 其 保存 在 文件 


entry. o 里 。 之 所 以 将 entry o 文 件 称 为 二 进 儿 


章程 序 段 而 不 是 


进 制程 序 ， 是 因为 entry.o 
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文件 不 是 可 执行 文件 ， 它 需要 经 过 链接 后 ， 才 能 成 为 可 执行 程序 。 


口 gcc 命 令 ， 其 格式 为 gcc [选项 ] 文件 ， 以 下 选项 将 在 本 系统 编译 过 程 中 使 用 。 


四 -E。 它 使 编译 器 只 执行 预 处 理 过 程 ， 不 执行 编译 、 汇 编 、 链 接 等 过 程 ， 也 不 会 生成 目标 文 
件 ， 此 时 需要 将 源 文 件 预 处 理 的 结果 重 定 向 到 一 个 输出 文件 中 。 
里 -C。 在 预 处 理 过 程 中 ， 它 不 删除 注释 信息 ， 通 常情 况 下 和 -E 联 合 使 用 。 
-mcmodel=large。 mcmodel 用 于 限制 程序 访问 的 地 址 空 s 间 ， 选 项 large 表 明 程序 可 访问 任 
何 虚拟 地 址 空间 ， 其 他 选择 无 法 使 程序 访问 整个 虚拟 地 址 空间 。 
四 -fno-builtin。 除 非 使 用 前 级 builtin_ 明 确 引 用 ， 否则 编译 髓 不 识别 所 有 系统 内 建 孙 
数 。 常 见 的 系统 内 建 函 数 有 alloca、 memcpy 等 。 
时 -m32/-m64。 它 生成 32/64 位 代码 。 
里 -c。 它 执行 预 处 理 、 编 译 、 汇 编 等 过 程 ， 但 不 执行 链接 过 程 。 
实例 解析 : 
gcc -E entry.S > entry.s 


这 条 命令 的 作用 是 对 汇编 源 文件 entry.S 进 行 预 处 理 ， 同 时 将 预 处 理 的 结果 重 定向 ( 导出 ) 到 目 
标 文件 entry.s 中 。 


读者 在 自行 编写 编译 脚本 或 执行 该 实例 命令 时 ， 可 使 用 -C 选 项 让 预 处 理 过 程 保留 注释 信息 。 
同时 请 注意 注释 符 ' //' 的 使 用 ， 如 果 注 释 符 在 编译 过 程 中 引发 错误 ， 可 尝试 将 注释 符 '//' 改 
i 


实例 解析 : 
gcc -mcmodel=large -fno-builtin -m64 -c main.c 

这 条 命令 的 作用 是 将 C 语 言 源 文件 main.c 编 译 成 64 位 的 二 进 制程 序 段 文件 main.o。 与 此 同时 ， 

这 条 命令 还 不 限制 地 址 空间 的 访问 范围 、 不 识别 所 有 系统 内 建 函数 。 

ld 命令 ， 其 格式 为 la [选项 ] 文件 ， 以 下 选项 将 在 本 系统 编译 过 程 中 使 用 。 

四 -b TARGET。 它 指定 输入 文件 的 文件 格式 。19 命 令 文 持 的 文件 格式 有 : elf64-x86-64、 
elf32-1386、a.out-i386-1inux、pei-1386、pei-x86-64、elf64-11om、elf64-1Little、 
elf64-big、 elf32-little、elf32-big、srec、symbolsrec、verilog、tekhex、 
binary、ihex 等 。( 可 通过 help 选 项 查询 1a 命 令 支持 的 文件 格式 。 ) 

里 -z muldqefs。 它 允许 重复 定义 。 当 遇见 重复 定义 时 ， 编 译 器 只 使 用 其 中 一 个 。 

和 -oO FILE。 它 指定 输出 文件 的 文件 名 。 

四 -T FILE。 它 为 链接 过 程 提供 链接 脚本 文件 。 

实例 解析 : 


ld -b elf64-x86-64 -z muldefs -o system head.o entry.o main.o printk.o trap.o 
memory.o interrupt.o task.o -T Kernel.1lds 


这 条 命令 的 作用 是 将 head.o 、entry.o 、main.o 等 编译 好 的 二 进 制程 序 段 文件 按照 链接 脚本 
kernel.lds 的 描述 对 程序 段 进行 部 署 ， 最 终 将 它们 链接 成 elf64-x86-64 文 件 格 式 的 可 执行 程序 
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system ， 这 个 链接 过 程 会 过 滤 掉 重复 定义 的 函数 。 
口 obj copy 命 令 ， 其 格式 为 objcopy [选项 ] 输入 文件 [输出 文件 ] ， 以 下 选项 将 在 本 系统 编译 
过 程 中 使 用 。 


加 -I TARGET。 它 指定 输入 文件 的 文件 格式 。objcopy 命 令 支 持 的 文件 格式 有 : elf64-x86-64、 


elf32-i 


386、 a.out-1i386-linux、pei-i386、pei-x86-64、elf64-llom、elf64-little、 


elf64-big、 elf32-little、 elf32-big、 srec、 symbolsrec、 verilog、 tekhex、 binary.、 


ihex 等 。 


(可 通过 help 选 项 查询 objcopy 命 令 支 持 的 文件 格式 。 ) 


-S。 它 移 除 所 有 symbo1 和 relocation 信 息 。 
-R_name。 它 从 输出 文件 中 移 除 名 为 name 的 程序 段 。 


实例 解析 : 


图 
图 
四 -O TARGET。 它 指定 输出 文件 的 文件 格式 。 


objcopy -I elf64-x86-64 -S -R ".eh frame" -R ".comment" -0O binary System kernel .bin 


这 条 命令 的 作 是 移 除 可 执行 程序 system 中 的 所 有 symbol 和 relocation 信 息 ， 并 移 除 名 
为 .eh_frame 和 .comment 的 程序 段 ， 最 后 将 剩余 程序 段 以 二 进 制 格式 输出 到 文件 kernel.bin 中 。 此 


处 提 及 的 .e 


h_frame 程 序 段 用 于 处 理 异 常 ， 而 .comment 程 序 段 则 用 于 存放 注释 信息 ， 由 于 系统 内 


核 只 能 以 二 进 制 程序 执行 ,那么 使 用 objcopy 指 令 将 ELF 格 式 的 文件 转换 为 二 进 制 文件 就 有 必 


要 ， 同 时 为 了 减少 内 核 程序 中 的 脏 数 据 ， 多 余 的 段 数据 要 移 除 掉 。 


有 些 读者 可 能 


会 觉得 每 次 增加 编译 文件 都 必须 在 Makefile 编 译 脚本 里 搬入 很 长 一 段 编译 命令 。 在 


某 些 情况 下 ， 如 果 
家 提供 了 解决 这 些 


需要 增加 编译 选项 ， 则 会 有 种 牵 一 发 而 动 全 身 的 感觉 。Makefile 编 译 脚本 早已 为 大 
问题 的 办 法 。 


在 Makefile 编 译 脚本 中 ， 可 以 使 用 变量 来 保存 编译 选项 ， 在 需要 使 用 编译 选项 时 ， 直 接 在 命令 中 


将 变量 展开 即 可 ， 而 且 变 量 展开 过 程 由 make 命 令 自动 执行 。 因 此 ,代码 清单 8-1 的 Makefile 编 译 脚 本 可 
改写 为 代码 清单 8-2 所 示 的 样子 。 


代码 清单 8-2 第 8 章 \ 程 序 \ 程 序 8-2\ 物 理 平台 \kernel\Makefile 


CFLAGS := -mcmodel=large -fno-builtin -m64 
ASFLAGS := --64 
head.o: head.s 


gcc -E headq.S > head.s 
as $ (ASFLAGS) -o head.o head.s 


main.o: main.c 
gcce $(CFLAGS) -c main.c 


这 段 代码 使 用 了 cFLAGS 和 AsFLAGS 两 个 变量 , 它们 分 别 保 存 着 执行 gcc 命 令 和 as 命 令 时 使 用 的 选 
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项 。 当 make 命 令 将 这 两 个 变量 展开 (使 用 $s (CcFLAGS) 和 $ (ASFLAGS) 格 式 进 行 展 开 ) 时 ， 这 段 程序 就 
变 成 代码 清单 8-1 的 样子 。 

尽管 本 节 已 经 讲解 了 Makefile 编 译 脚 本 的 主体 命令 以 及 编译 脚本 中 的 变量 ,但 编译 脚本 的 功能 非 
常 强大 ， 单 赁 一 章 或 几 节 内 容 无 法 将 其 讲述 穷尽 。 这 里 只 能 为 读者 做 一 个 引路 性 的 介绍 ， 对 这 方面 感 
兴趣 的 读 考 还 需要 另行 寻找 资料 阅读 。 


8.3 操作 系统 的 kernel.lds 链接 脚本 


系统 程序 的 链接 过 程 ( 执行 a 命令 ) 使 用 到 一 种 叫 作 链接 脚本 的 文件 ， 从 本 书 开篇 到 目前 为 止 并 
未 过 多 提 及 链接 脚本 的 功能 。 正 常 的 应 用 程序 开发 过 程 也 会 使 用 到 链接 脚本 文件 ， 只 不 过 通常 情况 下 
链接 器 都 会 使 用 默认 的 链接 脚本 文件 ， 所 以 在 编译 链接 应 用 程序 时 ， 我 们 并 不 需要 明确 指定 或 编写 链 
接 脚 本 文件 。 而 内 核 程序 段 的 位 置 往往 是 精心 设计 而 成 的 ， 这 就 导致 其 与 默认 链接 脚本 的 描述 不 符 。 
而 且 ， 根 据 系 统 内 核 程序 的 需要 ， 段 名 也 往往 由 操作 系统 独立 命令 。 出 于 以 上 原因 ， 就 需要 特殊 介绍 
一 下 链接 脚本 。 

链接 脚本 的 主要 作用 是 描述 如 何 将 输入 文件 中 的 各 程序 段 〈 数 据 段 、 代 码 段 、 堆 、 栈 、BSS ) 部 
署 到 输出 文件 中 ， 并 规划 输出 文件 各 程序 段 在 内 存 中 的 布局 。 现 以 本 系统 内 核 程序 的 链接 脚本 文件 为 
例 来 进行 讲解 ， 请 看 代码 清单 8-3。 


代码 清单 8-3 ”第 8 章 \ 程 序 \ 程 序 8-2\ 物 理 平 台 \kernelNKernel.1ds 


OUTPUT_FORMAT ("elf64-x86-64","elf64-x86-64","elf64-x86-64") 
OUTPUT_ARCH (i386:x86-64) 

ENTRY (_start) 

SECTIONS 

{ 


. = Oxffff800000000000 + 0x100000; 
text 3? 
{ 

Rs >» 

*(.text) 

二 人 全 广博 


.rodata : 

t 
odatd sy 
*(.rodata) 


8.3 操作 系统 的 kernel.lds 链接 脚本 287 


_erodata = .; 


. = ALIGN(32768); 
"datainit task st { ~ (date. init task)' 


_end = .; 
} 


从 代码 清单 8-3 可 以 看 出 ， 本 系统 内 核 程 序 的 链接 脚本 文件 使 用 了 OUTPUT_FORMAT、OUTPUT_ 
ARCH、ENTRY、SECTIONS 等 关键 字 对 内 核 程 序 的 组 织 结构 与 内 存 布 局 加 以 描述 。 现 在 将 对 这 些 关 键 
字 逐 一 进行 讲解 。 

口 符号 .是 一 个 定位 器 或 位 置 指 针 ， 它 用 于 定位 程序 的 地 址 或 调整 程序 的 布局 位 置 。 

实例 解析 : 
. = Oxffff800000000000 + 0x100000; 
此 行 脚本 的 作用 是 将 定位 器 设置 在 地 址 0xffff800000100000 处 , 此 时 的 地 址 代表 的 是 线性 地 址 。 
口 OUTPUT_FORMAT (DEFAULT, BIG, LITTLE) 。 它 为 链接 过 程 提供 DEFAULT( 默认 入 BIG( 大 端 入 
LITTLE (小 端 ) 三 种 输出 文件 格式 (文件 格式 请 参见 1a 命 令 的 -b TARGET 选 项 )。 在 程序 的 
链接 过 程 中 ， 若 链接 命令 使 用 -EB 选项 ， 那 么 程序 将 链接 成 BIG 指 代 的 文件 格式 ; 如 果 链 接合 
令 中 有 -EL 选项 ， 那 么 程序 将 链接 成 LITTLE 指 代 的 文件 格式 。 否 则 程序 将 链接 成 默认 文件 格 
式 ， 即 DEFAULT 指 代 的 文件 格式 。 
实例 解析 : 
OUTPUT_FORMAT ("elf64-x86-64", "elf64-x86-64", "elf64-x86-64") 
此 行 脚本 程序 的 作用 是 将 文件 的 三 种 输出 格式 均 设 置 为 e1f64-x86-64 (x86 处 理 器 的 64 
位 体系 结构 )。 

口 OUTPUT_ARCH (BFDARCH) 。 它 指定 输出 文件 的 处 理 器 体系 结构 。 
实例 解析 : 
OUTPUT_ARCH (i386:x86-64) 


此 行 脚 本 程序 的 作用 是 设置 输出 文件 的 处 理 器 体系 结构 为 1386:x86-64。 


口 ENTRY (SYMBOL) 。 它 将 标识 符 SYMBOL 设 置 为 程序 的 入 口 地 址 ， 即 执行 程序 的 第 一 条 指令 所 在 
地 址 。 
实例 解析 : 


ENTRY (_start) 


这 行 脚 本 程序 的 作用 是 将 head.S 文 件 中 的 标识 符 _start 作 为 程序 的 入口 地 址 。 
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注意 在 1d 命 令 链 接 各 程序 段 文件 时 ， 其 链接 顺序 大 体 上 是 按照 命令 行 中 的 文件 排列 顺序 依次 进行 
链接 的 。 故 此 ， 在 本 系统 内 核 程序 的 链接 命令 中 ，head.o 必 须 作 为 第 一 个 链接 文件 ， 从 而 才能 
将 head.o 文 件 内 的 代码 段 程序 安放 到 输出 文件 的 .text 段 的 起 始 地 址 处 。 链 接 器 并 非 通过 
ENTRY 关 键 字 部 署 程序 段 的 位 置 ( 指定 _start 为 程序 的 入 口 地 址 )。 


口 SECTIONS。SECTIONS 关 键 字 负 责 向 链接 器 描述 如 何 将 输入 文件 中 的 各 程序 段 ( 数据 段 、 代 
码 段 、 堆 、 栈 、BSS ) 部 署 到 输出 文件 中 ， 同 时 还 将 规划 各 程序 段 在 内 存 中 的 布局 。 
实例 解析 : 
SECTIONS 
{ 


. = Oxffff800000000000 + 0x100000; 
bw -和 


. = ALIGN(32768); 
.data.init task : { eo: } 
.bss : { ee } 

_end = .; 


} 

这 上段 脚本 程序 描述 了 各 程序 段 在 输出 文件 中 的 部 署 位 置 以 及 它们 在 内 存 中 的 布局 。 从 实例 中 可 
以 看 出 ,内核 程序 的 代码 段 .text 起 始 于 线性 地 址 0xffff800000100000 处 。 这 个 线性 地 址 经 过 
页 管理 机 制 转换 后 ， 我 们 可 知 其 对 应 的 物理 地 址 是 0x100000， 这 与 此 前 编写 的 Loader 引 导 加 
载 程序 和 head.S 内 核 执 行头 文件 的 设计 思路 相 吻 合 。 而 链接 脚本 中 的 正则 表达 式 * ( .text)， 
说 明了 输出 文件 的 .text 程 序 段 保 存 着 所 有 输入 文件 的 .text 程 序 段 。 而 且 ，.text 程 序 段 还 使 用 了 
_text 和 _etext 标 识 符 来 标示 .text 程 序 段 的 起 始 线 性 地 址 和 结尾 线性 地 址 , 这 两 个 标识 符 可 在 
程序 中 通过 代码 extern _text 和 extern _etext 进 行 引 用 (将 它们 看 作 全 局 变量 )。 其 他 程 
序 段 同 理 。 此 处 的 符号 .表示 程序 定位 器 的 当前 位 置 ( 线性 地 址 )。 

口 ALIGN (NUM) 。 它 将 地 址 向 后 按 NUM 字 节 对 齐 。 
实例 解析 : 
. = ALIGN(32768); 

这 行 脚本 程序 的 作用 是 将 定位 器 向 后 对 齐 至 32768 B 边 界 地 址 处 。 

此 时 再 来 看 链接 脚本 文件 kernel.lds， 将 会 非常 容易 理解 。 这 个 链接 脚本 文件 借鉴 于 Linux 2.4.0 
中 的 vmlinux.lds 文 件 。 通 过 本 节 内 容 的 学 习 ， 相 信 读 者 今后 再 去 解读 链接 脚本 文件 时 ， 应 该 不 
会 再 感到 陌生 和 旦 惧 。 
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8.4 操作 系统 的 线性 地 址 空间 划分 


早 在 7.3 节 已 经 介绍 了 引导 加 载 阶段 的 内 存 空 间 划 分 情况 。 其 实 ， 操 作 系统 在 正常 运行 的 过 程 中 ， 
也 会 对 线性 地 址 空间 进行 划分 ， 这 些 划分 出 来 的 区 域 各 司 其 职 地 运行 着 。 下 面 将 对 本 操作 系统 目前 设 
计 ( 有 少 部 分 设计 尚未 实现 ) 的 内 存 空间 划分 情况 进行 剖析 ,请 先 看 图 8-1 所 示 的 线性 地 址 空间 划分 示 
意图 。 


OXFFFFFFFF,FFFFFEEF 
司 定 映射 区 但 
+10000,0000h 非 国定 映射 区 闻 
+FFFF.FFFFh 
©@ 
CcC | 
zone_struct 
4 KB 边界 对 齐 
0 |-<4KB 边 讲 对齐 
page_struct 四 
人 小 | 
上 | _4KB 边界 对 齐 国定 映射 区 间 
bit map ©® 
Me -| 
¢ 4 KB 边界 对 齐 & end 
a | kernelbi 
Seb +100000h & test 
1 | E820 @ +7E00h 
对 


OxFFFF8000,00000000 
OxFFFF7FFF,FFFFFFFF 


Non-Canonical @ 


0x00008000.00000000 
Ox00007FFF,FFFFFFFF 


Canonical 中 


0x00000000.00000000 
图 8-1 操作 系统 的 线性 地 址 空间 划分 示意 图 


在 图 8-1 中 ,操作 系统 内 核 将 线性 地 址 空间 划分 为 多 个 区 域 , 它们 分 别 起 着 不 同 的 作用 ， 有 的 空间 
为 应 用 程序 预 留 ， 有 的 空间 保存 着 BootLoader 引 导 加 载 程 序 传递 过 来 的 数据 ， 有 的 空间 供 内 核 程序 使 
用 等 。 这 些 区 域 都 用 序号 标明 ， 每 个 区 域 的 详细 解释 如 下 。 

(1) 线性 地 址 区 间 0x00000000,00000000 ~ 0x00007FFF,FFFFFFFF 作 为 应 用 层 地 址 空间 ， 将 预 留 给 
各 个 应 用 程序 使 用 。 

(2) 线性 地 址 区 间 0x00008000,00000000 ~ 0xFFFF7FFF,FFFFFFFF 是 Non-Canonical 型 地 址 空间 ， 不 
能 被 处 理 器 访问 ， 故 保留 使 用 。 由 此 可 见 ， 将 这 段 地 址 空间 作为 应 用 程序 和 内 核 程 序 的 分 界线 ， 应 该 
是 一 个 不 错 的 选择 。 

(3) 从 线性 地 址 0xFFFF8000,00000000 开 始 至 0xFFFFFFFFFFFFFFFF 处 ， 这 段 区 间 将 作为 内 核 层 地 址 
空间 ， 供 内 核 程 序 管理 使 用 。 现 已 将 0~4 GB 物理 地 址 空间 固定 映射 到 线性 地 址 0xFFFF8000,00000000 ~ 
0xFFFF8000.FFFFFFFF 处 ， 即 线性 地 址 和 物理 页 的 映射 是 固定 的 、 连 续 的 、 一 一 对 应 的 ， 这 些 物理 页 无 
法 动态 更 改 。 在 内 核 启动 初期 ， 由 于 内 核 功能 不 够 完善 ， 内 核 必须 挪用 一 部 分 线性 地 址 空间 去 映射 帧 绥 
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存 区 (VBE 平 坦 帧 缓存 区 模式 的 起 始 物理 地 址 )， 故 此 目前 内 核 暂 且 无 法 进行 固定 映射 ， 待 到 内 存 管理 
单元 完善 以 后 再 做 固定 映射 。 

(4) 在 线性 地 址 0xFFFF8000,00000000 向 后 偏 移 7E00h 地 址 处 ， 保 存 着 通过 BIOS 中 断 服务 程序 获取 
的 物理 地 址 映射 信息 ， 当 内 存 管理 单元 初始 化 完毕 后 ， 这 部 分 内 存 空间 便 可 释放 男 作 他 用 。 

(5) 在 线性 地 址 0xFFFF8000,00000000 向 后 偏 移 100000h 地 址 处 ,保存 着 内 核 程序 kernel.bin。 

(6) 在 _end 标 识 符 ( 内 核 程序 结尾 地 址 ) 之 后 的 4 KB 边界 对 齐 处 ,保存 着 系统 可 用 物理 页 的 映 
射 位 图 。 

(7) 在 bits_map 映 射 位 图 组 之 后 的 4KB 边 界 对 齐 处 , 保存 着 系统 可 用 物理 页 的 页 面 管理 结构 struct 
Page。 

(8) 在 pages_struct 页 面 管理 结构 体 组 之 后 的 4 KB 边界 对 齐 处 ， 保 存 着 系统 可 用 物理 页 的 页 面 
区 域 结 构 struct Zone。 

(9) 从 zones_struct 页 面 区 域 结构 体 组 之 后 的 线性 地 址 开始 ,到 线性 地 址 0xFFFF8000,FFFFFFFF 
处 的 这 段 地 址 空间 用 于 固定 内 存 映 射 。 固 定 内 存 映 射 的 好 处 是 ， 内 核 只 需 通 过 简单 的 计算 ( 减 去 固定 
值 PAGE_ OFFSET = 0xFFFF8000,00000000 ) 便 可 知道 线性 地 址 对 应 的 物理 地 址 。 

(10) 剩余 线性 地 址 空间 ( 0xFFFF8001,00000000 ~ 0xFFFFFFFF,FFFFFFFF ) 用 于 非 固定 映射 。 超 
过 4 GB 的 物理 地 址 空间 可 随意 映射 到 此 地 址 空间 ， 并 允许 物理 页 面 的 重复 映射 ( 同一 物理 页 在 页 表 中 
存在 多 处 映射 )。 


补充 说 明 本 系统 将 0~4GB 物 理 地 址 空间 里 的 可 用 物理 内 存 页 只 作为 内 核 层 的 固定 映射 区 ， 它 是 系 
统 内 核 的 专用 内 存 空间 ; 而 4 GB 以 上 物理 地 址 空间 里 的 可 用 物理 内 存 页 属于 非 国定 映射 
区 ， 它 既 可 以 用 于 应 用 层 地 址 空间 ， 又 可 以 用 于 内 核 层 地 址 空间 。 


以 上 就 是 对 目前 系统 空间 划分 情况 的 介绍 ， 在 后 续 的 开发 过 程 中 我 们 可 能 还 会 对 其 进行 补充 、 完 
善 和 调整 。 
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对 于 用 户 来 说 ， 在 操作 系统 的 使 用 过 程 中 ,， 查 看 处 理 器 的 固件 信息 往往 是 一 件 看 似 非常 容易 的 事 
情 。 但 是 我 们 这 款 操作 系统 经 过 了 漫长 的 开发 周期 后 ， 对 于 处 理 器 的 固件 信息 至 今 仍 一 无 所 获 。 那 么 
在 本 章 余下 的 篇 幅 里 ， 我 们 将 通过 程序 查询 出 处 理 器 的 固件 信息 。 

这 些 固件 信息 是 固化 在 处 理 器 中 的 ， 我 们 借助 cCPUID 汇 编 指令 便 可 查询 出 处 理 器 的 产品 信息 、 妆 
产 商 信息 、 版 本 信息 等 基础 固件 信息 。 其 实 ，6.1.3 节 已 对 cPUID 汇 编 指 令 进 行 了 功能 性 介绍 。 那 就 趁 
着 讲解 本 节 内 容 的 机 会 ， 以 实践 为 主 ， 我 们 重新 温 故 一 下 cPUID 汇 编 指 令 的 相关 知识 。 

CPUID 指 令 将 通过 EAX 寄存 器 输入 查询 的 主 功能 号 ， 如 果 有 需要 ， 则 再 向 ECX 寄 存 器 输入 查询 的 
子 功能 号 。 当 这 条 汇编 指令 执行 结束 后 ， 查 询 的 返回 值 将 保存 在 EAX、EBX、ECX 和 EDX 寄 存 器 中 ， 
具体 的 程序 实现 请 参见 代码 清单 8-4。 
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代码 清单 8-4 ”第 8 章 \ 程 序 \ 程 序 8-2\ 物 理 平台 \kernel\cpu.h 


inline void get_cpuid(unsigned int Mop,unsigned int Sop,unsigned int * a,unsigned int 
* pb,unsigned int * c,unsigned int * d) 
{ 
_asm _ volatile _ ( "cpuid NNEY 
7 a te et oN eh od toa ee Ce) 
Ov(MOD)S "2 (SG 
pt 
} 


在 代码 清单 8-4 中 ,我 们 使 用 了 C 语 言 内 座 汇 编 语 言 的 方法 ， 将 cPUID 汇 编 指 令 封 装 成 get_cpuia 

函数 供 其 他 程序 调用 ， 其 中 的 Mop 和 Sop 参 数 用 于 向 cPUID 指 令 传递 主 功能 号 和 子 功 能 号 ， 然 后 将 查询 

的 返回 值 保存 到 指针 变量 a、b、c 和 ad 指向 的 内 存 中 ， 这 样 就 完成 了 一 个 封装 CPUID 指 令 的 函数 。 而 后 
在 代码 清单 8-5 中 ， 操 作 系统 通过 调用 get_cpuia 函 数 来 实现 处 理 吉 固件 信息 的 查询 工作 。 


代码 清单 8-5 ”第 8 章 \ 程 序 \ 程 序 8-2\ 物 理 平 台 \kernelcpu.c 


voidq init_cpul(void) 


{ 


int i,j; 

unsigned int CpuFacName[4] = {0,0,0,0}; 

char FactoryName[17] = {0}; 

//vendor_string Ea 
get_cpuid(0,0,&CpuFacName[0],&CpuFacName[1],&CpuFacName{[2],&CpuFacName[3]); 

*(unsigned int*)&FactoryName[0] = CpuFacName[1]; 

*(unsigned int*)&FactoryName[4] = CpuFacName[3]; 

*(unsigned int*)&FactoryName[8] = CpuFacName[2]; 

FactoryName[12] = '\0'， 

Color_printk (YELLOW, BLACK, "Ss\t%#010x\t%#010x\t%#010x\n",FactoryName, 


CpuFacName[1],CpuFacName[3],CpuFacName[2]); 


//brand_string 
for(i = 0x80000002;i < 0x80000005;i+t+) 
ft 
get_cpuid(i,0,¢&CpuFacName[0],&CpuFacName{[1],&CpuFacName[2],&CpuFacName[3]); 


*(unsigned int*)&FactoryName[0] = CpuFacName{[0]; 
*(unsigned int*)&FactoryName[4] = CpuFacName[1]; 
*(unsigned int*)&FactoryName[8] = CpuFacName[2]; 
*(unsigned int*)&FactoryName[12] = CpuFacName[3]; 
FactoryName [16] = '\0'， 

Color_printk (YELLOW, BLACK, "$s",FactoryName); 
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} 


Color_printk (YELLOW, BLACK, "\n"); 


//Version Informatin Type,Family,Model,and Stepping ID 

get_cpuid(1,0,&CpuFacName[0],&CpuFacName[1],&CpuFacName[2],&CpuFacName{[3]); 

Color_printk (YELLOW, BLACK, "Family Code:%®%#010x,Extended Family:%#010x,Model 
Number:%#010x,Extended Model:%#010x,Processor Type:%#010x,Stepping ID: 
S$#010x\n", (CpuFacName[0] >> 8 & 0xf), (CpuFacName[0] >> 20 & Oxff), (CpuFacName 
[0] >> 4 & Oxf), (CpuFacName[0] >> 16 & 0xf), (CpuFacName[0] >> 12 & 0x3), 
(CpuFacName [0] & 0xf)); 


//get Linear/Physical Address size 

get_cpuid(0x80000008,0,&CpuFacName[0],&CpuFacName[1],&CpuFacName[2], 
&CpuFacName{[3]); 

Color_printk (YELLOW,BLACK, "Physical Address size:%08d,Linear Address 
size:%08d\n", (CpuFacName [0] & 0xff), (CpuFacName[0] >> 8 & 0xff)); 


//max cpuid operation code 
get_cpuid(0,0,¢&CpuFacName{[0],&CpuFacName[1],é&CpuFacName[2],&CpuFacName{[3]); 
color_printk (WHITE,BLACK, "MAX Basic Operation Code :%#010x\t",CpuFacName[0]); 


get_cpuiqd(0x80000000,0,&CpuFacName[0],&CpuFacName[1],&CpuFacName[2], 
&CpuFacName [3]); 
color_printk (WHITE,BLACK, "MAX Extended Operation Code :%#010x\n",CpuFacName[0]); 


这 段 代码 使 用 了 主 功能 号 9、1 以 及 子 功 能 号 80000000h 、80000002h 、80000003h 、80000004h 、 
80000008h， 来 获取 处 理 器 的 固件 信息 以 及 其 他 基础 数据 信息 。 


通常 


情况 下 ， 这 些 数据 应 该 最 先 被 操作 系统 捕获 ， 随 后 操作 系统 再 根据 处 理 器 的 固件 信息 来 确定 


处 理 器 支持 的 功能 ， 以 便 进 一 步 初始 化 处 理 器 。 因 此 ,将 init_cpu 函 数 捅 入 到 系统 异常 处 理 功能 的 
初始 化 函数 之 后 会 更 受 当 一 些 ， 具 体 代码 实现 如 代码 清单 8-6 所 示 。 


代码 清单 8-6 ”第 8 章 \ 程 序 \ 程 序 8- 和 物理 平台 \kernel\main.c 


void Start_Kernel (void) 


Sys_vector_init(); 


init cpu();» 


由 于 init_cpu 函 数 的 位 置 过 于 靠 前 ， 从 而 导致 ijnit_cpu 函 数 的 日 志 信息 已 被 之 后 的 信息 覆盖 。 
为 了 查看 init_cpu 了 因数 打印 的 日 志 信 息 , 这 里 暂时 屏蔽 物理 地 址 映射 信息 , 读者 亦 可 根据 个 人 情况 ， 


有 选择 地 


屏蔽 其 他 日 志 信息 。 图 8-2 是 经 过 此 番 调 整 后 的 处 理 器 固件 信息 查询 结果 。 
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)00001014， 


000000000610 


)140 
0000001fe00000,pe 


0000001fe00000， 
0000009a600000， 
000001000000' end_adc e :0x000000011e600000 


000100000 a: Oy 1 k:0xffff80000012 


图 8-2 处理 器 的 固件 信息 查询 结果 图 


依据 图 8-2 打 印 的 固件 信息 可 知 ， 处 理 器 的 供应 商标 识字 符 串 为 GenuineIntel， 产 品 字符 串 为 2 
Intel (R) Core(TM) i7-2620M CPU @ 2.70 GHz， 这 款 处 理 器 支持 的 最 大 主 功 能 号 为 0Dh， 最 

大 子 功能 号 为 80000008h， 可 寻 址 物理 地 址 位 宽 为 36 位 ， 可 寻 址 线性 地 址 位 宽 为 48 位 等 。 对 于 cPUID 

指令 查询 出 的 上 述 信息 ，Intel 在 官方 白皮书 中 均 有 介绍 ， 并 详细 解释 说 明了 所 有 主 功能 号 和 子 功 能 号 

的 返回 值 。 为 了 节省 篇 幅 ， 表 8-1 仅 罗列 出 了 目前 已 使 用 功能 号 的 部 分 解释 ,更 多 内 容 还 请 读者 自行 查 

阅 Intel 官 方 白皮书 。 


表 8-1 cPUID 指 令 信息 对 照 表 


主 功能 号 处 理 器 提供 的 信息 
CPUID 基 础 信息 
00h EAX 处 理 器 支持 的 最 大 基础 功能 号 ( 见 表 8-2 ) 
EBX 字符 串 cenu 
ECX 字符 串 ntel 
EDX 字符 串 inei 
01h EAX 处 理 器 的 版 本 信息 ( 见 图 8-3 ) 
EBX 00~07 位 : 处 理 器 商标 信息 索引 值 ( 只 适用 于 IA-32 处 理 需 ) 


08~15 位 : cLFLUSH 指 令 刷 新 的 缓存 行 容量 (单位 8B ) 
16~23 位 : 处 理 器 包 内 的 最 大 可 寻 址 逻辑 处 理 器 ID 值 
24~31 位 : 初始 APIC ID 值 

ECX 处 理 器 支持 的 机 能 信息 ( 见 图 8-4 ) 

EDX 处 理 器 支持 的 机 能 信息 〈 见 图 8-4 ) 
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( 续 ) 
主 功能 号 处 理 器 提供 的 信息 
CPUID 扩 展 信息 
80000000h EAX 返回 处 理 器 支持 的 最 大 扩展 功能 号 ( 见 表 8-2 ) 
EBX 留 
ECX 保留 
EDX 保留 
80000002h EAX 处 理 器 商标 信息 ( 字符 串 ) 
EBX 处 理 器 商标 信息 ( 字符 串 ) 
ECX 处 理 器 商标 信息 〈 字符 串 ) 
EDX 处 理 器 商标 信息 (字符 串 ) 
80000003h EAX 处 理 器 商标 信息 〈 字符 串 ) 
EBX 处 理 器 商标 信息 〈 字符 串 ) 
ECX 处 理 器 商标 信息 〈 字符 串 ) 
EDX 处 理 器 商标 信息 ( 字符 串 ) 
80000004h EAX 处 理 器 商标 信息 〈 字 符 串 ) 
EBX 处 理 器 商标 信息 〈 字符 串 ) 
ECX 处 理 器 商标 信息 〈 字符 串 ) 
EDX 处 理 器 商标 信息 ( 字符 串 ) 
80000008h EAX 线性 /物理 地 址 位 宽 
00~07 位 : 物理 地 址 位 宽 
08~15 位 : 线性 地 址 位 宽 
16~31 位 : 保留 
EBX 保留 
ECX 保留 
EDX 保留 


根据 表 8-1 描 述 的 内 容 ， 代 码 清单 8-5 中 的 程序 有 选择 地 显示 了 其 中 一 部 分 数据 。 首 先 ， 程 序 将 主 
功能 号 00h 保 存在 EBX、EDX 、ECX 寄 存 器 中 的 返回 值 按 此 排列 顺序 ， 组 成 供应 商标 识字 符 串 
GenuineIntel， 并 从 EAX 寄存 需 保 存 的 返回 值 中 取得 处 理 器 支持 的 最 大 主 功 能 号 。 由 于 每 款 处 理 器 
可 使 用 的 最 大 主 功能 号 和 子 功能 号 丝 有 不 同 ， 因 此 Intel 官 方 白皮书 为 我 们 提供 了 各 系列 处 理 器 可 使 用 
的 最 大 功能 号 ， 详 细 数 据 请 参见 表 8-2。 


UD 
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表 8-2 ”32/64 位 处 理 器 的 cPUID 指 令 支 持 的 最 大 功能 号 


Intel 32/64 处 理 器 本 

基础 功能 号 扩展 功能 号 
Earlier Intel 486 Processors 未 实现 未 实现 
Later Intel 486 Processors and Pentium Processors 01h 未 实现 
Pentium Pro and Pentiumll Processors,Intel Celeron Processors 02h 未 实现 
Pentium TM Processors 03h 未 实现 
Pentium 4 Processors 02h 80000004h 
Intel Xeon Processor 02h 80000004h 
Pentium M Processor 02h 80000004h 
Pentium 4 Processor supporting Hyper-Threading Technology 05h 80000008h 
Pentium D Processor(8xx) 05h 80000008h 
Pentium D Processor(9xx) 06h 80000008h 
Intel Core Duo Processor 0Ah 80000008h 
Intel Core 2 Duo Processor 0Ah 80000008h 
Intel Xeon Processor 3000,5100,5200,5300,5400 Series 0Ah 80000008h 
Intel Core 2 Duo Processor 8000 Series 0Dh 80000008h 
Intel Xeon Processor 5200,5400 Series 0Ah 80000008h 
Intel Atom Processor 0Ah 80000008h 
Intel Core 17 Processor 0Bh 80000008h 


注 : Intel Core i7 Processor 历 经 数 代 ， 其 值 可 能 与 实际 值 不 符 。 


目前 ， 搭 载 本 系统 的 物理 平台 采用 Intel Core 这 二 代 的 2620M 处 理 器 ， 经 过 查询 后 发 现 该 处 理 器 支 
持 的 最 大 主 功能 号 为 0Dh， 而 非 表 8-2 所 示 的 0Bh， 原 因 是 自 Core 2 处 理 器 支持 的 最 大 主 功 
能 号 有 所 扩展 ， 在 不 久 的 将 来 它 也 许 还 会 再 次 进行 扩展 。 

接 下 来 ， 代 码 清单 8-5$ 又 通过 cPUID 指 令 的 子 功能 号 80000002h 、80000003h 和 80000004h 查 询 出 处 
理 器 的 产品 字符 串 信 息 ， 即 Intel (R) core(TM) i7-2620M CPU @ 2.70 GHz。 随 后 ,程序 再 使 
用 cPUID 指 令 的 主 功能 号 01h 查 询 出 了 处 理 器 的 模式 ID( Model ID )、 家 族 ID (Family ID ) 和 步 进 ID 
Stepping ID ) 等 处 理 器 版 本 信息 ， 这 些 信息 将 统一 返回 到 EAX 寄 存 器 中 ， 图 8-3 是 EAX 寄 存 器 中 的 处 
理 絮 版 本 信息 位 说 明 。 


Ey 


31 28 27 20 19 161514131211 87 43 0 


EAX 扩展 家 族 ID 


处 理 器 类 型 = 


fs 


图 8-3 ”处 理 右 版 本 信息 的 位 功能 说 明 图 
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图 8-3 已 将 处 理 器 版 本 信息 的 各 位 功能 标识 得 非常 清晰 明了 ， 此 处 就 不 再 过 多 袭 述 。 但 对 于 主 功能 


号 01h 保 存在 ECX 和 EDX 寄 存 器 值 ， 还 需要 额外 补充 说 明 一 下 。 这 两 个 寄存 器 保存 的 返回 值 描述 了 处 


该 了 解 


‘HH 


理 器 可 支持 的 功能 ， 


虽然 代码 清单 8-5 中 的 程序 并 未 显示 ECX 和 EDX 寄 存 器 保存 的 返 
它们 的 位 功能 ， 请 参见 图 8-4 所 示 的 各 位 功能 说 明 。 


ECX 
3 0 
30| RDRAND 
29| F16C 
28 AVX 
27 OSXSAVE 
26| XSAVE 
25 AES 
24 TSC-Deadline 
23 POPCNT 
22 MOVBE 
21 x2APIC 
20| SSE4 2 
19| SSE4 1 
18| TR 
17| PCID 
16| 
15| PDC 
14| xTPR Update Control 
13| _ CMPXCHGI16B 
12| FMA 
11 SDBG 
10 CNXT-ID 
9 3 
8 TM2 
7 ST 
6 SMX 
> VMX 
3 NIT 
了 DTIES64 
0 SSE3 
保留 


图 8-4 ”处 理 器 支持 的 位 功能 信 ， 


图 8-4 标 识 了 这 两 个 寄存 器 可 查询 的 处 理 咒 功 
晶 器 不 支持 此 功能 。 
至 此 ， 对 


息 (ECX 和 EDX 寄 存 器 的 返回 值 ) 


回 值 ， 但 读者 应 


能 标志 位 ， 置 位 表示 处 理 需 支持 此 功能 ,复位 表示 处 


阅 和 分 析 。 那 么 为 何不 去 看 看 你 所 使 用 的 处 理 器 的 固件 信息 呢 ? 
希望 通过 本 章 的 学 习 ， 读 者 不 仅 能 掌握 相关 知识 并 进行 自 定义 扩展 ， 也 能 在 学 习 Linux 内 核 的 过 


程 中 得 到 一 些 助力 。 


于 代码 清单 8-5 中 的 余下 内 容 ， 相 信 读 者 已 经 有 能 力 对 照 表 8-1 或 Intel 官 方 白皮书 自行 查 


至 


和 草 
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局 级 内 存 管理 单元 


内 存 管理 单元 作为 系统 内 核 的 一 个 重要 组 成 部 分 ， 


直 受 到 程序 


员 们 广泛 重视 。 而 且 ， 


对 于 可 用 


内 存 和 可 用 物理 页 的 分 配 /回收 算法 也 是 程序 员 们 争论 不 休 的 热 议 话题 之 一 这 些 算 法 在 时 间 损 耗 和 空 


间 开 销 上 的 优势 各 不 相同 ， 
了 在 任何 苛刻 的 环境 下 ， 


能 以 最 短 的 时 间 分 


合理 地 在 这 两 方面 间 进行 取舍 是 选择 


A 


上 才 


法 的 主要 依据 ， 


其 最 终 目 的 都 是 为 


站 配 到 尽 可 色 


本 章 内 容 仍 将 涉及 内 存 和 物理 页 的 分 配 / 
并 初步 实现 了 物理 


对 物理 内 存 信息 的 检测 ， 


回收 算法 ， 虽 然 在 初级 内 存 管理 单元 


E 页 的 分 配 功能 ， 但 这 些 功能 还 不 够 强大 ,不 足以 支撑 整个 


bE 多 的 可 用 内 存 或 可 用 物理 


贝 。 


一 节 中 , 已 经 实现 了 


系统 内 核 的 正常 运行 ， 因 此 需要 通过 本 章 内容 对 现 有 内 存 管 理 单元 进行 补充 完全 。 


在 高 级 内 存 管 


页 表 的 初始 化 等 功能 。 在 设计 可 用 内 存 的 分 配 与 回 
用 内 存 的 管理 方法 , 此 方法 可 有 效 防止 长 时 间 分 
本 章 还 有 一 些 设计 技巧 ， 以 此 给 正在 设计 内 存 管理 单元 的 你 带 


SLAB 内 存 池 


我 们 在 应 用 程序 的 编写 过 程 中 都 难免 会 使 用 到 内 存 空 
比如 最 先 匹配 算法 、 最 优 匹配 算法 或 其 他 算法 ， 那 么 在 内 存 对 象 
x 间 里 将 会 出 现 大 量 的 内 存 碎 片 ， 从 而 导致 系统 执行 效 


9.1 


类 似 malloc 函 数 的 内 存 管 
(或 称 内 存 空 间 ) 的 频繁 申 


晶 单 元 中 ,不 仅 要 完善 初级 内 存 管理 单元 的 某 些 功能 
收 功能 时 ， 还 还 借鉴 了 Linux 内 核 的 SLAB 分 配器 对 可 


ED/ 


带 来 一 些 帮助 


间 ， 内 核 程序 也 不 例外 。 


理 算法 ， 
请 和 释放 后 ， 内 存 空 


率 和 稳定 性 的 大 幅 / 
发 生 。 
内 存 池 的 作 


存 对 象 需要 使 用 时 便 从 内 存 池 
术 的 优点 在 于 可 分 配 内 存 对 象 数量 多 、 


缓存 文件 系统 相关 结构 体 、 
一 般 情 况 下 ， 从 内 存 


来 


著 缩短 调整 内 存 空间 所 消 


操作 系统 在 创建 内 存 池 时 将 消耗 大 量 


也 分 配 
只 有 在 内 存 池 销毁 时 内 存 对 象 才 会 统一 


j 是 预先 开辟 若干 个 大 小 相等 或 不 等 的 内 存 对 象 (存储 空 
请 ， 当 内 存 对 象 不 再 使 用 时 再 由 内 存 池 进行 
分 配 速度 快 、 便 于 管理 。 典 型 的 应 用 场景 有 申 


1 由 


， 还 要 实现 可 


3 间 ) 并 对 其 进行 管理 ， 


内 存 的 分 配 和 


回收 可 用 内 存 造 成 的 系统 内 存 雄 片 过 和 多 除 此 之 外 ， 


如 果 系 统 内 核 采 用 


度 下 降 。 如 果 采 用 内 存 池 技 术 来 代替 上 述 内 存 管 理 算法 ， 将 会 有 效 减少 这 种 情况 的 


当 内 


回收 再 


利用 。 内 存 池 技 


缓存 硬件 设备 的 数据 包 等 。 


系统 内 存 ， 


综 上 所 述 ， 本 系统 选 月 
和 运行 效率 的 同时 ， 


归还 给 系统 内 核 ; 而 


有 HSLAB en 内 核 管理 内 存 ， 此 举 
帮助 读者 理解 Linux 内 核 的 SLAB 分 配器 管理 方法 。 


请 网 络 协议 包 、 


的 内 存 对 象 不 会 归还 给 系统 内 核 ， 而 是 由 内 存 池 回收 再 利用 ， 通 常 


会 给 操作 系统 带 来 不 小 的 压力 。 


且 ， 内 存 对 象 的 回收 再 利 
E 的 时 间 。 但 的 缺点 也 一 目 了 然 ， 鉴 于 内 存 池 是 预先 开辟 好 的 ， 


j 速 度 快 ， 可 显 


可 在 提 


高 系统 内 核 稳定 性 
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9.1.1 ”SLAB 内 存 池 概述 及 相关 结构 体 定 义 


SLAB 内 存 池 技 术 首 次 使 用 是 在 Unix 操 作 系统 中 , 它 在 内 存 池 的 基础 上 加 入 了 一 些 扩展 。SLAB 分 
配器 可 为 系统 内 核 中 的 常用 资源 分 配 存 储 空间 , 并 在 分 配 /回收 存储 空间 的 过 程 中 , 操作 系统 允许 SLAB 
分 配器 使 用 自 定义 的 构造 函数 和 析 构 函数 对 内 存 对 象 进行 定制 化 处 理 。 不 仅 如 此 ，SLAB 分 配器 还 可 
以 动态 扩大 和 缩小 内 存 池 的 体积 ， 以 确保 不 会 过 多 占用 系统 内 存 , 或 在 内 存 池 容量 过 小 时 影响 内 存 对 
象 的 分 配 速度 。 

为 了 实现 上 述 功能 ， 特 拟定 struct slab_cache 和 struct Slab 两 个 结构 体 。 结 构 体 struct 
slab_cache 用 于 抽象 内 存 池 ， 其 主要 成 员 有 Constructor 和 Destructor 清 数 指针 ， 以 及 指向 
struct Slab 结 构 体 的 指针 变量 cache_pool。 至 于 函数 指针 constructor 和 Destructor， 它 们 可 
在 分 配 /回收 内 存 对 象 的 过 程 中 起 到 构造 / 析 构 内 存 对 象 的 作用 , 而 cache_pool 指 针 则 用 于 索引 内 存 池 
的 存储 空间 结构 struct slab。struct Slab 结构 体 的 作用 是 管理 每 个 以 物理 页 为 单位 的 内 存 空间 ， 
在 每 个 物理 页 中 包含 着 若干 个 竺 分配 的 内 存 对 象 。struct Slab_cache 与 struct Slab 结构 的 大 致 
关系 可 用 图 9-1 来 表示 。 


Constructor (内 存 池 构造 函数 ) 
Struct Slab_cache| Destructor 《内存 池 析 构 函数 ) 
cache_pool (内 存 池 指针 ) 


ND alloc_pagesO); 


QO 


hh next a 
Struct List lst 一 > Struct List list: 


Struct Page * page; Struct Page * page: 一 


Struct Slab Struct Slab 


void* Vaddress; void * Vaddress; Phy To Virtoy 


unsigned long * color_map; unsigned Iong * color map:kmalloc(color_ length); 


图 9-1 SLAB 内 存 池 相关 结构 体 的 关系 示意 图 


图 9-1 描 述 了 结构 体 struct Slab_cache 和 struct Slab 的 主要 功能 以 及 结构 上 的 关系 。 其 中 ， 
结构 体 struct Slab_cache 可 从 宏观 上 对 内 存 池 进行 整体 管理 ， 而 struct Slab 结构 体 只 负责 管理 
具体 内 存 对 象 。 代 码 清单 9-1 是 Slab_cache 的 结构 体 定义 。 


代码 清单 9-1 第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平台 \kernel\memory.h 


struct Slab_cache 


{ 


unsigned long size; 
unsigned long total_using; 
unsigned long total_free; 


struct Slab * cache_pool; 
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struct Slab * cache_dma_pool; 
void *(* constructor) (void * Vaddress,unsigned long arg); 
void *(* destructor) (void * Vaddress,unsigned long arg); 


de 

从 struct slab_cache 结 构 体 的 定义 中 可 知 ，struct Slab_cache 除 了 包含 图 9-1 中 介绍 的 结 
构 体 成 员外 ， 还 包括 用 于 索引 DMA 内 存 池 存储 空间 结构 ( struct Slab ) 的 指针 cache_qma_pool 
(暂且 保留 ) 和 内 存 池 的 管理 成 员 。 

虽然 struct Slab_cache 结 构 体 能 够 从 宏观 上 对 内 存 池 进行 管理 ， 但 对 于 池 中 内 存 对 象 的 分 配 
与 回收 工作 而 言 ， 它 们 却 必须 依靠 struct Slab 结构 体 来 完成 ， 代 码 清 单 9-2 是 struct Slab 结构 体 
的 完整 定义 。 
代码 清单 9-2 第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平台 \kernel\memory.h 


struct Slab 
{ 


struct List list; 
struct Page.* page: 


unsigned long using_ count; 
unsigned long free_ count; 


void * Vaddress; 


unsigned long color_length; 
unsigned long color_count; 


unsigned long * color_map; 
结构 体 struct Slab 包括 了 链接 其 他 struct Slab 结构 体 的 1ist 成 员 变量 、 记 录 所 使 用 页 面 的 
page 成 员 变 量 、 记 录 当 前 页 面 所 在 线性 地 址 的 vaaaress 成 员 变 量 ， 以 及 用 于 管理 内 存 对 象 使 用 情况 
的 着 色 区 成 员 变量 。 

凭借 上 述 结构 对 内 存 池 的 管理 和 维护 ， 一 个 SLAB 内 存 池 在 不 久 的 将 来 便 可 实现 。 


9.1.2 ”SLAB 内 存 池 的 创建 与 销毁 


现 已 拟定 出 了 SLAB 内 存 池 的 相关 结构 体 ， 本 节 将 会 使 用 这 些 拟定 好 的 结构 体 来 实现 图 9-1 所 展示 
的 结构 关系 ， 以 完成 SLAB 内 存 池 的 创建 和 销毁 功能 。 

1. SLAB 内 存 池 的 创建 

SLAB 内 存 池 的 创建 过 程 与 初始 化 struct Global_Memory_Descriptor 结 构 体 的 过 程 非常 相 
似 。 首 先 使 用 内 存 申请 函数 kmalloc (将 在 9.2 节 中 了 予以 实现 ) 动态 分 配 struct slab_cache 结 构 体 
和 struct Slab 结构 体 的 存储 空间 ， 并 初始 化 这 两 个 结构 体内 的 成 员 变 量 。 在 成 员 变 量 的 初始 化 过 程 
中 ，SLAB 内 存 池 还 将 申请 空白 物理 页 作为 内 存 池 的 数据 存储 空间 ， 同 时 再 次 使 用 kmal1oc 函 数 为 映 
射 位 图 分 配 存 储 空间 。 详 细 的 内 存 池 创 建 过 程 请 参见 代码 清单 9-3。 


兴 
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代码 清单 9-3 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平 台 \kernelvmnemory.c 


struct Slab cache * slab create(unsigned long size,void *(* constructor) (void * 
Vaddress,unsigned long arg),void *(* destructor) (void * Vaddress,unsigned long 
arg) ,unsigned long arg) 


struct Slab_cache * slab_cache = NULL; 


slab_cache = (struct Slab cache *)kmalloc(sizeof (struct Slab_cache),0); 
if(slab_ cache == NULL) 
{ 

Color_printk (RED,BLACK, "slab_ create()->kmalloc()=>slab _ cache == NULL\n"); 


return NULL; 


memset (slab_cache,0,sizeof (struct Slab_cache)); 


slab_cache->size = SIZEOF_LONG ALIGN (size); 
slab_cache->total using = 0; 
slab_cache->total_free = 0; 
slab_cache->cache pool = (struct Slab *)kmalloc(sizeof (struct Slab),0); 
if(slab_cache->cache _ pool == NULL) 
{ 
color_printk (RED,BLACK, "slab_ create()->kmalloc()=>slab_ cache->cache pool 
==. NULLNnN™); 
kfree(slab_cache); 
return NULL; 


memset (slab_cache->cache pool,0,sizeof (struct Slab)); 


slab_cache->cache_ dma_pool = NULL; 
slab_cache->constructor = constructor; 
slab_cache->destructor = destructor; 
list_init(&slab_ cache->cache pool->list); 


slab_cache->cache_pool->page = alloc_ pages (ZONE_NORMAL ,1,0) ， 


if(slab_cache->cache_ pool->page == NULL) 
{ color_printk (RED,BLACK, "slab_ create()->alloc pages()=>slab_ cache->cache_ 
pool->page == NULL\n"); 


kfree(slab_ cache->cache_pool); 
kfree(slab_cache); 
return NULL; 


page_init (slab_ cache->cache pool->page,PG Kernel); 


slab_cache->cache pool->using_count = 0; 

slab_cache->cache_ pool->free_count = PAGE 2M SIZE/slab_cache->size; 

slab_cache->total_free = slab_cache->cache pool->free_count; 

slab_cache->cache_pool->Vaddress = Phy_To_Virt(slab cache->cache_ pool->page-> 
PHY_address); 

slab_cache->cache_pool->color_count = slab_ cache->cache_ pool->free_ count; 

slab_cache->cache_pool->color_length = ((slab_ cache->cache pool->color_count + 
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sizeof (unsigned long) x 8 - 1) >> 6) << 3; 


slab_cache->cache_pool->color map = (unsigned long 
*)kmalloc(slab cache->cache_pool->color_length, 0); 
if(slab_cache->cache pool->color map == NULL) 
{ 
color_printk (RED,BLACK,"slab_ create()->kmalloc()=>slab_ cache->cache pool-> 
Olor map .== NUBL\N"}s 


free pages (slab_ cache->cache pool->page,1); 
kfree(slab_ cache->cache_pool); 
kfree(slab_ cache); 
return NULL; 
} 


memset (slab_cache->cache _ pool->color_map,0,slab_cache->cache _ pool->color_ 
length); 


return slab_cache; 


} 

SLAB 内 存 池 的 创建 过 程 ， 可 以 理解 为 struct Slab_cache 结 构 体 的 分 配 和 初始 化 过 程 。 整 个 初 
始 化 过 程 不 光 会 对 struct s1ab_cache 结 构 体 的 每 个 成 员 变量 进行 赋值 还 为 cache_pool 成 员 变 量 
创建 和 初始 化 了 struct Slab 结构 体 。 这 是 为 了 避免 每 次 向 SLAB 内 存 池 申 请 内 存 对 象 时 都 要 检测 
cache_pool 成 员 变 量 是 否 为 NULL， 进 而 缩减 执行 内 存 对 象 分 配 过 程 的 代码 量 ， 间 接 提高 SLAB 内 存 
池 的 分 配 效 率 。 看 似 不 起 眼 的 几 行 程序 ， 在 无 数 次 调用 的 基数 面前 ， 其 消耗 的 时 间 将 不 容 忽 视 。 

同 理 ， 在 为 内 存 池 对 象 预 分 配 存储 空间 时 ， 虽然 内 存 对 象 的 存储 空间 尺寸 可 以 自 定义 , 但 为 了 达到 
快速 分 配 、 访 问 内 存 对 象 的 目的 ，SLAB 内 存 池 便 将 内 存 对 象 的 尺寸 调整 为 ]ong 型 (8 字 节 ) 边界 对 齐 ， 
宏 #define SIZEOF_LONG ALIGN(size) ((size + sizeof (long) - 1) & ~(sizeof (long) - 1) ) 
便 实现 了 这 一 对 齐 过 程 。 

sl1ab_create 图 数 的 constructor 和 Destructor 成 员 变 量 是 一 对 国 数 指 针 ( 指向 函数 的 指 
针 )， 它 们 负责 向 SLAB 内 存 池 提供 构造 函数 和 析 构 函数 。 当 为 SLAB 内 存 池 提供 构造 函数 和 析 构 函数 
后 ，SLAB 内 存 池 便 可 在 分 配 或 回收 内 存 对 象 的 过 程 中 对 内 存 对 象 进 行 定制 化 操作 。 

内 存 管理 单元 属于 不 好 调试 的 模块 之 一 。 尤 其 是 经 过 长 时 间 运 行 后 产生 的 错误 ， 这 种 错误 涉及 的 
原因 诸多 ,而 且 再 现时 间 长 。 为 了 便于 查找 错误 ， 此 处 对 一 些 容易 产生 空 指针 的 地 方 加 入 了 错误 日 志 
信息 以 及 出 错 后 的 处 理 程序 。 

2. SLAB 内 存 池 的 销毁 

SLAB 内 存 池 的 销毁 过 程 是 创建 内 存 池 的 逆 过 程 。 只 有 在 池 中 内 存 对 象 全 部 空 亲 时， 内存 池 的 销 
毁 工 作 才 允许 执行 。 因 此 ， 操 作 系 统 首先 要 对 struct Slab_cache 结 构 体 的 total_using 成 员 变量 
进行 判断 ， 只 有 当 total_using=0 时 才 允 许 继续 执行 销毁 工作 。 随 后 将 遍历 struct Slab 结构 体 链 
表 ， 逐 个 销毁 struct slab 结 构 体 及 其 所 管理 的 数据 存储 空间 。 当 struct slab 结 构 体 链表 全 部 销 
毁 后 ， 再 销毁 SLAB 内 存 池 的 抽象 结构 体 struct slab_cache。 具 体 程 序 实现 请 参看 代码 清单 9-4。 
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代码 清单 9-4 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平 台 \kernelvmnemory.c 


unsigned long slab destroy(struct Slab cache * Slab_cache) 


{ 


struct Slab * Slab pb = slab_ cache->cache_pool; 


struet SLab. * tme slab. se NULLE:S 


if(slab_cache->total_ using != 0) 

{ 
color_printk (RED,BLACK,"slab cache->total using != 0\n"); 
return 0; 


} 


while(!list_is_ empty(&slab p->list)) 


{ 
tmp_slab = slab_p; 


slab _p = container of (list next (&slab p->list),struct Slab,list); 


list_del(&tmp_slab->list); 
kfree(tmp_slab->color_map); 


page_clean (tmp_slab->page); 
free_pages (tmp_slab->page,1); 
kfree(tmp_slab); 

} 


kfree(slab _p->color_map); 


page_clean(slab _p->page); 
free_pages (slab_p->page,1); 
kfree(slab_p); 
kfree(slab_cache); 

return 1; 


} 


SLAB 内 存 池 的 销毁 过 程 较 创建 过 程 简单 许多 ， 此 处 便 不 再 过 多 计 


F 解 ， 请 读者 自行 阅读 。 对 于 代 


码 中 涉及 的 内 存 释放 函数 kfree 以 及 物理 页 释放 函数 free_pages， 将 在 本 章 后 续 内 容 中 予以 介绍 。 


9.1.3 ”SLAB 内 存 池 中 对 象 的 分 配 与 回收 


当 SLAB 内 存 池 创建 成 功 后 ， 我 们 便 可 通过 相应 
对 内 存 对 象 的 分 配 /回收 函数 予以 实现 、 讲 解 和 讨论 。 


的 函数 向 内 存 池 申 请 或 释放 内 存 对 象 。 本 节 将 会 


如 果 说 SLAB 内 存 池 的 创建 和 销毁 工作 是 以 配置 struct Slab_cache 结 构 体 为 主 的 话 ， 那 么 


SLAB 内 存 池 中 对 象 的 分 配 与 回收 工作 则 是 以 struct slab 结 构 体 的 管理 为 主 。|] 


下面 先 以 内 存 对 象 的 


分 配 函 数 为 例 来 看 看 它 是 如 何 操作 struct Slab 结构 体 的 ， 然 后 再 对 照 分 配 函 数 去 实现 内 存 对 象 的 回 


收 函 数 。 
1. SLAB 内 存 池 中 对 象 的 分 配 


函数 slab_malloc 用 于 分 配 SLAB 内 存 池 


1 的 内 存 对 象 ， 


其 参数 slab_cach 


] 于 指定 待 分 配 的 


内 存 池 ， 如 果 此 内 存 池 在 创建 时 提供 了 构造 函数 ， 那 么 SLAB 内 存 池 在 调用 构造 函数 时 会 将 参数 arg 
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传递 给 构造 函数 ， 以 实现 内 存 对 象 的 构造 初始 化 。 下 面 将 分 段 对 slab_malloc 函 数 进行 讲解 ， 请 看 代 
码 清单 9-5。 
代码 清单 9-5 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平 台 \kernelmemory.c 


void * Slab mallocl(struct Slab_ cache * Slab_cache,unsignedq long arg) 


{ 


struct Slab * Slab pb = slab_ cache->cache_pool; 
struct Slab * tmp. slab = NULLD; 
nit 3 和 03 


if(slab_ cache->total_free == 0) 


{ 
tmp_slab = (struct Slab *)kmalloc(sizeof (struct Slab),0); 


if(tmp_slab == NULL) 
Color_printk (RED,BLACK,"slab malloc()->kmalloc()=>tmp_slab == NULL\n"); 
return NULL; 


memset (tmp_slab,0,sizeof (struct Slab)); 
list_init(&tmp_slab->list); 


tmp_slab->page = alloc_ pages (ZONE_NORMAL,1,0); 
if(tmp_slab->page == NULL) 


{ 
Color_printk (RED,BLACK,"slab malloc()->alloc pages()=>tmp_slab->page 9 
== NULL\n"); 


kfree(tmp_slab); 
return NULL; 


page_init (tmp_slab->page,PG Kernel); 


tmp_slab->using_count = 0; 

tmp_slab->free_count = PAGE 2M SIZE/slab_ cache->size; 
tmp_slab->Vaddress = Phy_To_Virt(tmp_slab->page->PHY_address); 
tmp_slab->color_count = tmp_slab->free_ count; 


tmp_slab->color_length = ((tmp_slab->color_ count + sizeof (unsigned long) * 8 - 
7 0 

tmp_slab->color_ map = (unsigned long *)kmalloc(tmp_slab->color_length,0); 

if(tmp_slab->color_map == NULL) 


{ 
Color_printk (RED,BLACK,"slab malloc()->kmalloc()=>tmp_slab->color_map 
se NULLNDT) 
free_ pages (tmp_slab->page,1); 
kfree(tmp_slab); 
return NULL; 


memset (tmp_slab->color_map,0,tmp_slab->color_length); 
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小 


list_adqd to behind(&slab cache->cache pool->list,&tmp_slab->list); 
slab_cache->total_free += tmp_slab->color_count; 


这 段 代 码 先 检测 当前 内 存 池 的 可 用 内 存 对 象 数量 ， 如 果 池 中 内 存 对 象 可 用 数量 为 0 
(total_free=0 )， 则 表示 内 存 池 中 的 对 象 已 全 部 被 使 用 ， 此 时 就 需要 为 内 存 池 扩容 ， 即 创建 并 初始 
化 新 的 struct Slab 结构 体 ， 再 将 其 链 入 内 存 池 中 。 
当 内 存 池 扩 容 结束 后 ， 内 存 池 便 可 为 本 次 函数 调用 分 配 内 存 对 象 。 内 存 池 分 配 内 存 对 象 的 过 程 与 
物理 页 的 分 配 过 程 比 较 相 似 ， 即 通过 颜色 位 图 (或 称 BIT 映 射 位 图 、 着 色 位 图 ) 检索 出 空闲 的 内 存 对 
象 , 然后 将 内 存 对 象 的 索引 号 转换 成 对 应 的 虚拟 地 址 返回 给 调用 者 , 详细 的 实现 过 程 请 看 代码 清单 9-6 


代码 清单 9-6 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平 台 \kernelvmnemory.c 


for(j = 0;j < tmp_slab->color_count;j++) 
{ 
if( (*(tmp_slab->color map + (j >> 6)) & (1UL << (jg 64))) == 0 ) 
{ 
*(tmp_slab->color map + (j >> 6)) |= 1UL << (j % 64); 


tmp_slab->using_count++; 
tmp_slab->free_count--; 


slab_cache->total using++;}; 
slab_cache->total_free--; 


if(slab_ cache->constructor != NULL) 
{ 
return slab_cache->constructor( (char *)tmp_slab->Vaddress + 
slab_cache->size * j,arg); 
} 
else 
{ 
return (void *) ((char *)tmp_slab->Vaddress + slab cache->size * j); 
} 
} 
} 


此 段 代 码 从 刚才 新 创建 的 struct slab 结 构 体 中 分 配 出 一 个 空 闪 内 存 对 象 给 调用 者 ， 这 个 分 配 过 
程 会 从 新 创建 的 结构 体 中 检索 出 一 个 空 闪 内 存 对 象 ( 对 于 新 创建 的 struct slab 结 构 体 而 言 ， 其 实 第 
一 个 内 存 对 象 就 是 空闲 的 )， 然 后 调整 内 存 池 的 相关 计数 器 ( 这 些 计数 器 包括 total_using、 
total_free、using_count 和 free_count 等 成 员 变 量 ) 如 果 内 存 池 提 供 自 定义 的 内 存 对 象 构造 函 
数 ， 那 么 执行 自 定 义 构造 功能 ， 即 通过 sl1ab_cache->constructor 函 数 指针 提供 的 构造 函数 对 分 配 
的 内 存 对 象 进行 初始 化 。 在 内 存 对 象 的 初始 化 过 程 中 ,构造 器 允许 附带 一 个 构造 参数 arg， 调 用 者 可 
通过 该 参数 来 协助 构造 器 完成 内 存 对 象 的 初始 化 工作 。 当 完成 内 存 对 象 的 构造 过 程 后 ， 内 存 池 会 把 内 
存 对 象 的 虚拟 地 址 返回 给 调用 者 。 如 果 内 存 池 尚 未 提供 自 定 义 的 内 存 对 象 构造 子 数 ， 则 直接 将 内 存 对 
象 的 虚拟 地 址 返回 给 调用 者 即 可 。 

上 述 分 配 过 程 是 在 内 存 池 尚 无 空闲 内 存 对 象 的 情况 下 执行 的 ， 如 果 内 存 池 仍 有 空闲 内 存 对 象 ， 只 
需 遍 历 出 第 一 个 有 空闲 内 存 对 象 的 struct Slab 结构 体 ， 并 从 中 分 配 出 一 个 空闲 内 存 对 象 即 可 ， 此 过 
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程 请 读者 继续 往 下 看 代码 清单 9-7。 


代码 清单 9-7 第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平 台 \kernelmnemory.c 


else 
t 
do 
{ 
if(slab _p->free_count == 0) 
{ 
slab_p = container_ of (list next (&slab p->list),struct Slab,list); 
continue; 
} 
for(j = 0;j < slab_p->color_count;j++) 
{ 
if(*(slab_p->color map + (j >> 6)) == OxffffffffffffffffUL) 
人 
j += 63; 
continue; 
} 
if( (*(slab p->color map + (j >> 6)) & (1lUL << (j % 64))) == 0 ) 
{ 
*(slab p->color map + (j >> 6)) |= 1UL << (j % 64); 
slab_p->using_count++; 
slab_p->free_count--;} 
slab_cache->total using++; 
slab_cache->total_free--; 
if(slab_ cache->constructor != NULL) 
return slab_cache->constructor( (char *)slab_p->Vaddress + 
slab_cache->size * j,arg); 
else 
{ 
return (void *) ((char *)slab p->Vaddress + slab cache->size * j); 
} 
} 
} 
}while(slab p != slab_cache->cache pool); 


} 
代码 清单 9-7 的 主体 任务 是 遍历 struct slab 结 构 体 链表 ， 这 个 遍历 过 程 将 检测 内 存 池 中 的 每 个 
struct Slab 结构 体 ， 以 寻找 含有 空闲 内 存 对 象 的 struct slapb 结 构 。 如 果 有 空闲 内 存 对 象 ， 便 从 
目标 struct slapb 结 构 体 中 检索 出 可 用 内 存 对 象 。 在 可 用 内 存 对 象 的 检索 过 程 中 ， 内 存 池 首 先 会 以 无 
符号 长 整 型 变量 的 长 度 为 遍历 单位 ， 逐 段 比 对 颜色 位 图 color_map ， 如 果 某 段 的 颜色 位 图 值 为 
0xffffffffffffffffUL 就 说 明 此 区 间 无 空闲 内 存 对 象 ， 否 则 将 从 此 段 对 应 的 颜色 位 图 中 选取 出 空 
闲 内 存 对 象 ， 然 后 再 调整 内 存 池 相关 统计 变量 的 值 。 最 后 ， 根 据 自 定义 构造 函数 的 存在 与 否 ， 判 断 虚 
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拟 地 址 的 返回 过 程 是 否 执行 自 定义 构造 功能 。 
正常 情况 下 ，slab_malloc 函 数 会 从 以 上 几 段 代码 中 分 配 内 存 对 象 ， 并 将 


虚拟 地 址 返回 给 


周 用 


者 。 但 是 ， 当 slab_malloc 函 数 运行 到 代码 清单 9-8 时 ， 则 说 明 slab_malloc 函 数 的 内 存 对 象 分 配 过 


时 宣告 失败 ， 从 而 进入 善后 处 理工 作 。 
代码 清单 9-8 ”第 9 章 \ 程 序 \ 程 序 9- 作 物理 平台 \kernel\memory.c 


Color_printk (RED,BLACK,"slab malloc() ERROR: can‘t alloc\n"); 
if(tmp_slab != NULL) 
{ 


list_del(&tmp_slab->list); 
kfree(tmp_slab->color_map); 
page_clean(tmp_slab->page); 
free_pages (tmp_slab->page,1); 
kfree(tmp_slab); 
} 
return NULL; 


此 处 的 善后 处 理工 作 , 将 释放 刚才 新 创建 的 struct slab 结 构 体 ， 如 果 刚 才 未 曾 创建 新 的 struct 


Slap 结 构 体 ， 则 直接 返回 NULL 给 调用 者 。 
2. SLAB 内 存 池 中 对 象 的 回收 


当 内 存 对 象 不 再 使 用 时 ,我 们 可 通过 六 数 slab_free 将 内 存 对 象 归还 给 内 存 池 ， 函 数 slab_free 
会 对 归还 的 内 存 对 象 进行 善后 处 理 。 在 回收 内 存 对 象 的 过 程 中 ， 如 果 内 存 池 支持 自 定义 的 析 构 函数 ， 
便 会 执行 自 定义 析 构 功能 。 在 内 存 对 象 回收 后 ， 如 果 此 内 存 对 象 所 在 struct Slab 结构 已 完全 空闲 ， 
而 且 内 存 池 的 空闲 内 存 对 象 储备 充足 ， 则 这 个 struct Slab 结构 体 可 以 释放 ， 此 举 可 减轻 系统 内 存 的 


使 用 压力 ， 代 码 清单 9-9 是 上 述 过 程 的 程序 实现 。 
代码 清单 9-9 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平 台 \kernelvmnemory.c 


unsigned long slab free(struct S1ab_cache * Slab_cache,void * address,unsigned long 


arg) 

{ 
struct Slab * Slab pb = slab_ cache->cache_pool; 
int index = 0; 


do 
( 


if(slab_p->Vaddress <= address && address < slab p->Vaddress + PAGE 2M_ SIZE) 


index = (address - slab p->Vaddress) / slab cache->size; 


*(slab_p->color map + (index >> 6)) ^= 1UL << index 
slab_p->free_count++; 
slab_p->using_count--; 


slab_cache->total_ using--;} 
slab_cache->total_freet+t+; 


if(slab_ cache->destructor != NULL) 
{ 


%S 64; 
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slab_cache->destructor( (char *)slab p->Vaddress + slab_ cache->size * 
index,arg); 


if((slab p->using_count == 0) && (slab_ cache->total_ free >= 
slab. p->color_count * 3 / 2)) 


ES 


ist_del(&slab p->list); 
slab_cache->total_free -= Slab p->color_count; 


kfree(slab p->color_map); 
page_clean(slab _p->page); 
free pages (slab_p->page,1);} 
kfree(slab_p); 


} 
return 1; 
} 
else 
{ 
slab_p = container_of (list_ next (&slab p->list),struct Slab,1list); 
continue; 


}while(slab p != slab_cache->cache pool); 


Color_printk (RED,BLACK,"slab_free() ERROR: address not in slab\n"); 
return 0; 


} 

这 上段 程序 先 通 过 内 存 对 象 ( 由 调用 者 传 入 ) 的 虚拟 地 址 判断 其 所 在 的 struct silap 结 构 体 。 如 果 
此 内 存 对 象 的 虚拟 地 址 不 包含 在 SLAB 内 存 池 的 管理 范围 内 ， 则 说 明 竺 回收 的 内 存 对 象 无 效 ， 然 后 
SLAB 内 存 池 会 打印 错误 日 志 信息 ， 并 返回 0 来 通知 调用 者 函数 回收 操作 失败 。 一 旦 检索 出 内 存 对 象 所 
在 的 struct Slab 结构 体 ，SLAB 内 存 池 立即 执行 内 存 对 象 回收 工作 。 整 个 回收 过 程 将 按照 下 列 顺序 
依次 执行 。 

(1) 复位 颜色 位 图 color_map 对 应 的 索引 位 。 

(2) 调整 内 存 池 的 相关 计数 器 ， 这 些 计数 器 包括 total_using、total_free、 using_count 以 
及 free_count 等 成 员 变 量 。 

(3) 调用 内 存 池 的 自 定义 析 构 功能 ( 如 果 支 持 自 定义 析 构 函数 )。 

(4) 如 果 目 标 struct Slab 结构 中 的 内 存 对 象 全 部 空闲 ， 并 且 内 存 池 的 空闲 内 存 对 象 数量 超过 1.5 
倍 (代码 slab_cache->total_free >= slab p->color count * 3 / 2 ) 的 slab p-> 
color_count 值 ， 则 将 这 个 struct Slab 结构 体 释 放 以 降低 系统 内 存 使 用 率 。 

虽然 本 系统 目前 还 没有 SLAB 内 存 池 技术 的 应 用 场景 , 但 可 将 SLAB 内 存 池 技术 借鉴 到 通用 内 存 的 
申请 /释放 功能 中 ， 以 增强 对 通用 内 存 的 管理 效率 和 力度 ，Linux 内 核 亦 是 采用 这 种 方法 。 本 章 先 讲解 
SLAB 内 存 池 技 术 的 主要 目的 就 是 为 了 方便 读者 学 习 和 理解 通用 内 存 管理 单元 。 
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9.2 基于 SLAB 内 存 池 技术 的 通用 内 存 管 理 单元 


应 用 层 的 内 存 管 理 功 能 主要 负责 对 进程 地 址 空间 内 的 堆 空 间 进行 划分 ， 从 而 为 进程 提供 可 用 内 
存 。 像 mal1loc 函 数 就 是 一 个 典型 的 例子 ， 它 通常 会 采用 首次 适应 first fit )、 最 佳 适应 ( best fit ) 等 
算法 ， 昌 然 起 初 的 分 配 速度 非常 快 ， 但 经 过 若干 次 不 等 长 度 的 内 存 分 配 与 回收 后 ， 它 便 会 在 堆 空 间 内 
留 下 诸多 不 连续 的 内 存 空洞 ， 进 而 造成 内 存 使 用 量 的 增加 ,更 有 其 者 还 会 出 现 无 法 分 配 到 可 用 内 存 的 
现象 。 

相 比 之 下 ， 内 核 层 的 通用 内 存 管理 单元 则 主要 用 于 为 驱动 程序 、 文 件 系统 、 进 程 管 理 单元 、 数 据 
协议 包 等 模块 提供 可 用 内 存 空 间 。 操 作 系统 对 内 核 层 的 要 求 一 向 非常 苛刻 ， 内 核 层 的 通用 内 存 管理 单 
元 必须 保证 各 个 模块 经 过 长 时 间 、 频 繁 的 申请 和 释放 内 存 后 ， 仍 然 能 够 保持 整个 内 存 空间 的 平坦 性 、 
连续 性 ， 以 及 稳定 的 内 存 分 配 /回收 速度 。 

借鉴 了 SLAB 内 存 池 技 术 的 内 核 层 通用 内 存 管 理 单元 ， 可 在 不 失 分 配 / 回 收 性 能 的 同时 ， 有 效 减少 
内 存 空洞 的 产生 。 那 么 ， 现 在 就 来 实现 这 样 一 个 基于 SLAB 内 存 池 技 术 的 通用 内 存 管 理 单元 。 


9.2.1 通用 内 存 管理 单元 的 初始 化 函数 slab_init 


既然 通用 内 存 管 理 单元 是 基于 SLAB 内 存 池 技术 实现 的 , 那么 , 我 们 首先 就 要 借助 SLAB 内 存 池 的 
struct Slab_cache 结 构 体 和 struct Slapb 结 构 体 来 构建 一 套 内 存 池 组 ,使 得 通用 内 存 管理 单元 可 
分 配 出 不 同 尺寸 的 内 存 对 象 。 由 于 这 套 内 存 池 组 始终 存在 于 操作 系统 的 生命 周期 里 ， 因 此 ， 应 该 定义 
为 全 局 数组 ， 代 码 清 单 9-10 是 详细 的 数组 定义 。 


代码 清单 9-10 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平台 \kernel\memory.h 


struct Slab_cache kmalloc_ cache_size[16] = 


{ 
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六 

这 个 全 局 内 存 池 数 组 共 包 含 16 个 独立 的 内 存 池 ， 它 们 分 别 代表 着 尺寸 为 2 2 次 寡 的 内 存 对 象 的 
SLAB 内 存 池 。 此 全 局 内 存 池 数 组 仅 定义 了 每 个 内 存 池 的 内 存 对 象 尺寸 ， 其 他 成 员 变量 将 会 在 通用 内 
存 管 理 单元 的 初始 化 函数 slapb_init 中 予以 初始 化 赋值 。 在 通用 内 存 管理 单元 的 初始 化 期 间 ， 尚 无 内 
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存 空间 分 配 函 
数 的 首要 工作 


代码 清单 9-11 


数 ， 以 至 于 我 们 只 能 通过 编程 手动 为 SLAB 内 存 池 指 定 存储 空间 ， 这 也 是 slap_init 矣 
， 代 码 清单 9-11 是 这 部 分 功能 的 程序 实现 。 


第 9 章 \ 程 序 \ 各 


序 9-1\ 物 理 平台 \kernel\memory.c 


[ua 


unsigned long slab_init() 


{ 


struct Page * page = NULL; 
unsigned long * virtual = NULL; // get a free page and set to empty page table and 


return the virtual address 


unsigned long i,j; 


unsigned long tmp_address = memory_management_struct.engd of_struct; 


for(i = 0;i < 16;i+t+) 


{ 


kmalloc_cache_ sizel[il].cache pool = (struct Slab *)memory_management_struct. 
end_of_struct; 

memory_management_struct.end_ of_struct = memory_management_struct.engd of_ 
struct + sizeof (struct Slab) + sizeof (long) * 10; 


list_init(&kmalloc_ cache_ sizel[il].cache pool->list); 

//////////// init sizeof struct Slab of cache size 

kmalloc_cache_size[i].cache pool->using_ count = 0; 

kmalloc_cache_size[i].cache pool->free count = PAGE 2M SIZE / 
kmalloc_cache_ size[i].size; 

kmalloc_cache_size[i].cache pool->color_length =((PAGE 2M_ SIZE / 
kmalloc_cache_ sizel[il].size + sizeof (unsigned long) * 8 - 1) >> 6) << 3; 

kmalloc_cache_size[i].cache pool->color_count = kmalloc cache sizel[il]. 
Cache_pool->free_count; 

kmalloc_cache_ sizel[i].cache pool->color map = (unsigned long *)memory_ 
management_struct.engd of_struct; 

memory_management_struct.end of_struct = (unsigned long) (memory_management_ 
struct.end of_struct + kmalloc_ cache_ size[i].cache pool->color_length + 


sizeof (long) * 10) & ( ~ (sizeof (long) - 1)); 
memset (kmalloc_ cache sizel[li].cache pool->color_map, Oxff,kmalloc _ cache_ 
size[i].cache pool->color_length); 


for(j = 0;j < kmalloc_ cache_ size[i].cache pool->color_count;j++) 
*(kmalloc _ cache_ size[il].cache pool->color map + (j >> 6)) ^= 1UL << j %$ 64; 


kmalloc_cache_ size[i].total_ free = kmalloc_ cache size[i] .cache pool-> 
Golor count: 
kmalloc_cache_ sizel[lil].total using = 0; 


从 这 段 代码 可 知 ， 通 用 内 存 池 组 使 用 循环 体 来 逐个 创建 并 初始 化 各 成 员 ( SLAB 内 存 池 )。 它 借助 
全 局 结构 体 变量 mnemory_management_struct 的 成 员 eng_of_struct 来 手动 开辟 SLAB 内 存 池 的 管 


理 空间 ， 即 增长 end_of_struct 成 员 变 量 ( 内 存 页 管理 结构 的 结尾 地 址 ) 来 创建 管理 空间 。 而 且 ， 
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在 开辟 的 各 管理 空间 之 间 依 然 会 保留 一 段 内 存 间 阶 以 防止 不 当 操 作 造 成 的 访问 越界 现象 。 一 旦 管理 空 


间 分 配 结束 ， 操 作 系统 便 可 对 其 进行 初始 化 赋值 ， 重 复 十 几 次 循环 后 就 初步 完成 了 通用 内 存 池 组 的 创 


建 工 作 。 


当初 步 完成 通用 内 存 池 组 的 创建 工作 ， 操 作 系 统 仍 需 对 扩展 的 这 部 分 空间 ( enq_of_struct 成 


员 变 量 的 增长 空间 ) 进行 维护 管理 ， 即 配置 扩展 空间 对 应 的 struct Page 结 构 体 以 标识 此 内 存 空间 已 
被 使 用 ， 代 码 清单 9-12 是 该 过 程 的 程序 实现 。 


代码 清单 9-12 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平台 \kernel\memory.c 


//////////// init page for kernel code and memory management struct 
i = Virt_To_Phy (memory_management_struct.engd of_struct) >> PAGE 2M_ SHIFT; 
for(j = PAGE 2M ALIGN(Virt_To_Phy (tmp_address)) >> PAGE 2M_ SHIFT;j <= i;j++) 


page = memory_management_struct.pages_struct + j; 
*(memory_management_struct.bits map + ((page->PHY_address >> PAGE 2M_SHIFT) >> 6)) 
|= 1UL << (page->PHY_address >> PAGE 2M_ SHIFT) % 64; 
page->zone_struct->page_ using_count++;}; 
page->zone_struct->page_free_count--; 
page_init (page,PG_PTable Maped | PG Kernel Init | PG Kernel); 
} 


Color_printk (ORANGE, BLACK, "2 .memory_management_struct.bits map:%#018lx\tzone_struc 
t->page_using_count:%d\tzone_struct->page_free count:%d\n",*memory_ management_ 
struct.bits_map,memory_management_struct.zones_struct->page _ using_count, 
memory_ management_struct.zones_struct->page_free_count); 


在 代码 清单 9-12 里 ， 局 部 变量 tmp_addqress 记 录 着 扩展 内 存 空间 之 前 的 地 址 ， 将 此 地 址 按 2 MB 


物理 页 的 下 边界 对 齐 ， 再 与 扩展 后 的 内 存 地 址 进行 比较 。 如 果 内 存 空间 已 扩展 至 新 的 内 存 页 ， 则 将 新 
页 面 对 应 的 位 图 置 位 标记 为 已 使 用 。 再 调整 新 页 面 所 在 struct Zone 结构 体 的 计数 器 。 最 后 ， 操 作 系 
统 还 要 初始 化 内 存 页 对 应 的 struct Page 结 构 体 ， 并 将 其 属性 更 新 为 PC_PTable Maped | 
PG_Kernel_Init | PG_Kernel。 经 过 此 番 设 置 后 ,这些 新 占用 的 内 存 页 就 不 会 再 被 其 他 模块 使 用 。 


根据 


当 完 成 扩展 空间 的 维护 工作 后 ， 再 将 物理 页 的 使 用 量 以 及 本 次 调整 后 的 相关 信息 显示 在 屏幕 中 ， 
显示 信息 可 验证 上 述 分 配 和 初始 化 过 程 的 正确 性 。 
接 下 来 ,我 们 将 为 每 个 SLAB 内 存 池 的 内 存 对 象 分 配 存储 空间 ， 并 完成 通用 内 存 池 组 的 初始 化 工 


作 ， 请 读者 继续 往 下 看 代码 清单 9-13 。 
代码 清单 9-13 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平台 \kernel\memory.c 


for(i = 0;i < 16;i++) 
{ 
virtual = (unsigned long *) ((memory_management_struct.engd of_struct + 
PAGE_2M_SIZE * i + PAGE 2M_ SIZE - 1) & PAGE 2M MASK); 
page = Virt_To_ 2M Page (virtual); 


*(memory_management_struct.bits map + ((page->PHY_address >> PAGE_ 2M_SHIFT) >> 6)) 
|= 1UL << (page->PHY_address >> PAGE 2M_ SHIFT) % 64; 
page->zone_struct->page_ using_count++;}; 


9.2 
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page->zone_struct->page_free_count--; 


page_init (page,PG_ PTable Maped | PG Kernel_Init | PG Kernel); 


kmalloc_cache_ size[il].cache pool->page = page; 
kmalloc_ cache_ size[il].cache pool->Vaddress = virtual; 


} 


Color_printk (ORANGE, BLACK, "3 .memory_management_struct.bits map:%#018lx\tzone_ 
struct->page_using_count:%d\tzone_struct->page_free count:%Sd\n",*memory_ 
management_struct.bits_map,memory_management_struct.zones_struct->page_ 
using_count,memory_management_struct.zones_struct->page_ free_count); 


Color_printk (ORANGE, BLACK, "start_code:%#0181x,end_code:%#0181x, end_data: 
S$#018]1x,end_brk:%#0181lx,end_of_struct:%#018lx\n",memory_management_struct. 
start_code,memory_management_struct.end_ code,memory_management_struct.end_ 
data,memory_management_struct.end brk, memory_management_struct.engd of_struct); 


return 1; 


这 段 程序 依然 使 用 代码 清单 9-12 的 方法 为 SLAB 内 存 池 分 配 可 用 物理 页 
间 之 后 。 当 确定 即将 使 用 的 物理 页 后 ， 再 初始 化 这 些 物 理 页 对 应 的 struct 


已 使 用 。 最 后 ， 将 这 些 内 存 页 作为 通用 内 存 池 组 的 分 配 空间 使 用 。 
好 奇 的 读者 可 能 想 问 , 为 什么 不 使 


者 完全 可 以 使 用 alloc_pages 函 
才 没 有 使 用 alloc_pages 函 数 分 配 物理 页 。 而 且 ， 这 些 物理 


的 struct Slab 结构 体 ， 它 们 在 操作 系统 消亡 前 不 应 该 被 释放 ,那么 把 这 些 初始 内 存 空间 连续 的 排列 


排列 在 扩展 空间 之 后 ， 


起 来 将 有 助 于 内 存 空间 的 管理 。 
然后 ， 再 次 把 相关 日 志 信息 打印 在 


至 此 就 完成 了 slab_init 函 数 的 程序 设计 , 但 通 


用 alloc_pages 函 数 而 使 用 位 图 来 强制 指 
数 来 分 配 物 理 页 。 但 出 于 保险 考虑 ,为 了 保证 此 时 分 配 的 内 存 页 连续 


， 这 些 物理 页 紧 接 扩展 空 
Page 结 构 体 ， 将 其 标记 为 


定 内 存 页 ? 其 实 , 读 


E 页 隶属 于 静态 创建 


用 内 存 池 的 初始 化 工作 仍 未 


结 


屏幕 上 ， 以 验证 此 段 程序 执行 的 分 配 及 初始 化 过 程 的 正确 性 。 


束 。 


函数 中 物理 页 过 度 使 朋 


月， 导致 操作 系统 


初始 页 表 项 ， 请 参见 代码 清单 9-14。 


代码 清单 9-14 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平 台 \kernel\head.S 


PDE.: 


.Guad 0x000087 
.Guad 0x200087 
.Guad 0x400087 
.Guad 0x600087 
.Guad 0x800087 
.quad 0xa00087 
.quad 0xc00087 
.quad 0xe00087 
.Guad 0x1000087 
.Guad 0x1200087 
.Guad 0x1400087 
.Guad 0x1600087 
.Guad 0x1800087 


/* Ox800 


083 */ 


1 于 在 slab_init 


目前 的 可 用 物理 页 已 严重 赤字 ,那么 接 下 来 就 为 操作 系统 追加 
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.Guad 0xla00087 
.Guad OxwleU00087 
.Guad 0xle00087 
.Guad 0x2000087 
.Guad 0x2200087 
.Guad 0x2400087 
.Guad 0x2600087 
.Guad 0x2800087 
.Guad 0x2a00087 
.Guad 0x2c00087 
.Guad 0x2e00087 
.Guad 0xe0000087 ZwOX T3000000*7 
.Guad 0xe0200087 
.Guad 0xe0400087 
.Guad 0xe0600087 
.Guad 0xe0800087 
.Guad 0xe0a00087 
.Guad 0xe0c00087 
.Guad 0xe0e00087 
EE 480,8,0 
新 追加 的 页 表 项 已 将 系统 原 有 的 10 MB 初始 物理 内 存 空间 提升 至 48 MB， 新 页 表 项 的 插入 将 率 连 
VBE 帧 缓存 区 起 始 线性 地 址 的 调整 。 故 此 ，VBE 帧 缓存 区 的 起 始 线 性 地 址 将 随 之 后 移 至 线性 地 址 


0xffff800003000000 处 ， 进 而 


调整 如 代码 清单 9-15。 
代码 清单 9-15 ”第 9 章 \ 程 序 \ 程 序 9- 才 物理 平台 \kernel\main.c 


周 整 Pos .FB_adgdr 变 量 ( 位 于 Start_Kernel 国 数 内 ) 的 数值 ， 详 细 


) 0xfffft800003000000 


内 存 池 组 已 创建 并 初始 化 完毕 , 下 一 步 将 实现 通用 内 存 的 分 配 与 释放 功能 ( 函数 》 


void Start_Kernel (voidi) 
{ 
Pos.FB _ addr = (int * 
} 
现在 , 一 个 通用 
9.2.2 


中 分 配 通 


kmalloc 


通用 内 存 的 分 配 函 数 kmalloc 
了 解 Linux 内 核 源码 2.4.0 以 上 版 本 的 读者 ， 想 必 对 kmalloc 肾 数 并 不 陌生 ， 该 函数 用 于 在 内 核 层 


用 内 存 。kmal1loc 函 数 可 在 通用 内 存 的 分 配 过 程 中 ， 根 据 传人 的 参数 值 实现 多 种 分 配 策略 。 
本 系统 的 功能 还 不 够 齐全 ( 主要 缺少 进程 调度 、 信 号 量 等 功能 ), 但 已 具备 实现 简单 版 
滑 数 的 环境 ， 那 么 现在 就 来 分 段 讲 解 kmal1loc 孙 数 的 实现 过 程 。 


首先 ，kmalloc 函 数 会 根据 参数 size 从 通用 内 存 池 组 中 选择 出 用 于 分 配 内 存 对 象 的 内 存 池 。 在 确 


定 待 使 用 的 内 存 池 后 ，kmalloc 函 数 将 从 池 中 遍历 出 拥有 空 闪 内 存 对 象 的 存储 空间 管理 结构 体 


struct Slab， 详 细 的 遍历 过 程 请 参见 代码 清单 9-16。 
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代码 清单 9-16 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平台 \kernelvmemory.c 


/* 
return virtual kernel address 
gfp_flages: the condition of get memory 
wy 


void * kmalloc(unsigned long size,unsigned long gfp_flages) 
{ 
于 站 巧 ， 全 天 可 
struct Slab * Slab = NULL; 
if(size > 1048576) 
' 
Color_printk (RED,BLACK, "kmalloc() ERROR: kmalloc size too long:%08d\n",size); 
return NULL; 
} 


for(i = 0;i < 16;i+t+) 
if(kmalloc_ cache sizel[li].size >= size) 
break; 


Slab = kmalloc_ cache_ size[i].cache pool: 


if(kmalloc_cache sizel[lil].total_free != 0) 
人 
do 
人 
if(slab->free_count == 0) 
slab = container of (list_ next (&slab->list),struct Slab,list); 
else 
break; 
}while(slab != kmalloc_ cache_ size[i].cache pool); 


} 


else 


{ 


slab = kmalloc_ create(kmalloc_ cache size[i] .size); 


if(slab == NULL) 


{ 
Color_printk (BLUE,BLACK, "kmalloc()->kmalloc_ create()=>slab == NULL\n"); 


return NULL; 


} 


kmalloc_cache_size[i].total_ free += slab->color_count; 

Color_printk (BLUE,BLACK, "kmalloc()->kmalloc_ create()<=size:%#010x\n", 
kmalloc_cache size[i] .size);/////// 

list_adqd to _ before(&kmalloc cache_ sizel[i].cache pool->list,é&slab->list); 


此 段 代 码 先 判断 形式 参数 size 的 数值 是 否 大 于 1048576 B=1 MB ， 该 值 是 允许 申请 的 最 大 内 存 空 
间 值 。 由 于 系统 并 不 存在 超过 此 立 值 的 内 存 池 ， 如 果 超 过 该 值 则 直接 显示 错误 信息 而 后 返回 NULL 值 。 
如 果 参 数 size 是 正确 的 申请 值 ， 那么 kmal1loc 函 数 将 由 低 至 高 逐一 遍历 内 存 池 组 ， 直 至 侦 历 出 一 个 可 
容纳 下 请 求 值 size 的 内 存 池 为 止 。 

当 确 定 目标 内 存 池 后 ， 再 检测 其 是 否 有 空闲 内 存 对 象 可 供 分 配 。 如 果 有 空闲 内 存 对 象 ， 则 遍历 出 
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可 提供 空闲 内 存 对 象 的 struct slap 结 构 体 ; 相反 ， 如 果 目 标 内 存 池 已 无 空闲 内 存 对 象 ， 则 通过 
kmalloc_create 国 数 〈( 稍 后 予以 介绍 ) 为 内 存 池 再 创建 一 个 struct Slab 结构 以 及 数据 存储 空间 ， 
并 将 其 链接 到 内 存 池 中 。 

不 论 使 用 原 有 struct Slab 结构 体 还 是 新 创建 的 ， 最 后 都 会 从 struct slab 结 构 体 所 管理 的 数 
据 存储 空间 中 分 配 一 个 内 存 对 象 给 调用 者 。 这 也 是 kmal1oc 函 数 接 下 来 要 做 的 工作 ， 请 继续 往 下 看 代 
码 清单 9-17。 


代码 清单 9-17 第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平台 \kernel\memory.c 


for(j = 0;j < slab->color_count;j++) 
{ 
if(*(slab->color map + (j >> 6)) == OxffffffffffffffffUL) 
{ 
j += 63; 
continue; 
} 
if( (*(slab->color _ map + (j >> 6)) & (1lUL << (j % 64))) == 0 ) 
{ 
*(slab->color map + (j >> 6)) |= 1UL << (j %$ 64); 


slab->using_count++;}; 
slab->free_count--; 


kmalloc_cache_ sizel[i].total_ free--; 
kmalloc_cache_ size[i].total using++; 


return (void *) ((char *)slab->Vaddress + kmalloc cache sizel[lil].size * j); 


} 


Color_printk (BLUE,BLACK, "kmalloc() ERROR: no memory can alloc\n"); 

return NULL; 

这 部 分 程序 从 选中 的 struct Slab 结构 体 中 分 配 一 个 空闲 内 存 对 象 给 调用 者 。 为 了 加 快 检索 速 
度 ， 此 处 先 以 UNSIGNED LONG (无 符号 长 整 型 数 ) 数据 类 型 为 单位 ， 在 颜色 位 图 中 逐 段 找寻 数值 不 
为 0xfffffffffffffffftUL 的 位 图 段 。 如 果 发 现 符合 条 件 的 位 图 段 ，kmalloc 困 数 会 深入 检索 位 图 段 
以 取得 空闲 内 存 对 象 。 此 后 的 计数 器 更 新 工作 便 和 slab_malloc 国 数 一 样 。 如 果 整 个 检索 过 程 未 发 现 
可 用 内 存 对 象 ， 那 就 暂 晶 认为 是 内 存 池 存在 问题 ， 打 印 错误 日 志 信 息 并 返回 NULL 值 。 
以 上 内 容 是 kmalloc 函 数 的 主体 代码 ， 接 下 来 将 对 其 中 的 kmalloc_create 子 数 予以 补充 讲解 。 
kmalloc_create 困 数 用 于 创建 struct slab 结 构 体 ， 它 的 创建 过 程 与 slab_malloc 函 数 极其 相似 ， 
但 为 了 节省 存储 空间 ， 同 时 也 为 了 减少 kmal1loc 函 数 的 般 套 使 用 次 数 ， 此 函数 将 根据 内 存 对 象 的 尺寸 
把 创建 过 程 拆 解 为 两 个 分 支 。 

第 一 个 创建 分 支 适用 于 容量 范围 在 32 B~512 B 的 小 尺寸 内 存 对 象 。 虽 然 这 些 内 存 对象 的 尺寸 比较 
小 ， 但 它们 的 颜色 位 图 却 占 用 了 较 大 的 存储 空间 。 这 里 将 struct siab 结 构 体 和 数据 存储 空间 放 在 同 
一 个 内 存 页 内 ， 此 举 可 避免 为 颜色 位 图 另行 分 配 存储 空间 ( 肯 套 调用 kmalloc 函 数 )， 进 而 保证 只 要 
有 可 用 物理 页 ， 即 可 分 配 出 内 存 对 象 ， 具 体 程序 实现 如 代码 清单 9-18。 
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代码 清单 9-18 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平台 \kernelvmemory.c 


struct Slab * kmalloc_create(unsigned long size) 
Tt 
struct Slab * Slab = NULL; 
struct Page * page = NULL; 
unsigned long * vaddresss = NULL; 
long structsize = 0; 


page = alloc pages (ZONE_ NORMAL,1, 0); 


if (page == NULL) 

{ 
Color_printk (RED,BLACK, "kmalloc_ create()->alloc pages()=>page == NULL\n"); 
return NULL; 


page_init (page,PG Kernel); 


switch(size) 
( 
/1/11/1111111/1/1/1/1/1/1////slab + map in 2M Page 


case 32: 
case 64: 
case 128: 
case 256: 
case 512: 
vaddresss = Phy_To_ Virt (page->PHY_address); 9 
structsize = sizeof(struct Slab) + PAGE 2M SIZE / size / 8; 
slab = (struct Slab *) ((unsigned char *)vaddresss + PAGE 2M SIZE - 
structsize); 
slab->color_map = (unsigned long *) ((unsigned char *)slab + sizeof (struct 
Slab)); 
slab->free_count = (PAGE 2M_ SIZE - (PAGE 2M SIZE / size / 8) - 
sizeof (struct Slab)) / size; 
slab->using_count = 0; 
slab->color_count = slab->free_count; 
slab->Vaddress = vaddresss; 
slab->page = page; 
list_init(&slab->list); 
slab->color_length = ((slab->color_count + sizeof (unsigned long) * 8 一 


6 
memset (slab->color_map, 0xff,slab->color_length); 


for(i = 0;i < slab->color_count;i++) 
*(slab->color map + (i >> 6)) ^= 1UL << i % 64; 


break; 


这 上段 代码 先 申请 了 一 个 空闲 物理 页 ， 在 申请 成 功 后 , 将 根据 形 参 size 提 供 的 数值 选择 创建 分 支 。 
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如 果 size 处 于 32 B~512 B 区 间 内 ，kmalloc_create 函 数 则 执行 以 下 创建 步骤 。 


(1) 通过 宏 Phy_To_Virt (page->PHY_adqdress) 计 算出 物理 页 的 起 始 线 改 
(2) 将 struct Slab 结构 体 和 颜色 位 
structsize 记 录 着 两 者 占用 的 存储 空间 尺寸 。 


图 的 存储 空间 都 保存 在 物理 


地 址 。 


页 的 末尾 处 ， 局 部 变 生 


I 


虽 


(3) 通过 对 物理 页 起 始 线 性 地 址 、 物 理 页 尺寸 、 相 关 结 构 和 存储 空间 大 小 的 计算 ， 可 准确 得 出 
struct Slab 结 构 体 与 颜色 位 图 的 起 始 线 性 地 址 。 
(4) 将 计算 所 得 与 相关 结构 绑 定 ， 并 对 结构 进行 初始 化 赋值 。 


第 二 个 创建 分 支 适 用 于 容量 范围 


ey 


在 1KB~1 MB 的 大 尺寸 内 存 对 象 。 这 些 内 存 池 的 一 个 特点 是 内 


存 对 象 的 尺寸 庞大 ,但 其 颜色 位 图 的 存储 空间 却 非常 小 。 为 了 减少 物理 页 空间 的 浪费 ， 这 个 分 支 将 
把 struct siab 结 构 体 从 物理 页 中 移出 ， 转 而 使 用 kma1l1loc 函 数 进行 创建 详细 代 码 实现 如 代码 清 


单 9-19。 


代码 清单 9-19 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平台 \kernel\memory.c 


///////////////////Kmalloc slab and map,not in 2M page anymore 


Case 
Case 
Case 
Case 
Case 


1024: //1KB 
2048: 
4096: //4KB 
8192 : 
16384: 


/////1/1////////////color map is a very short puffer. 


Case 
Case 
Case 
Case 
Case 
Case 


32768: 
65536.: 
131072: //128KB 
262144: 
524288: 
1048576: //1MB 
slab = (struct Slab *)kmalloc(sizeof (struct Slab),0); 
slab->free_count = PAGE 2M_ SIZE / size; 
slab->using_count = 0; 
slab->color_count = slab->free_count; 
slab->color_length = ((slab->color_ count + sizeof (unsigned long) * 8 - 
i 
slab->color_map = (unsigned long *)kmalloc(slab->color_length,0); 
memset (slab->color_map, Oxff,slab->color_length);} 
slab->Vaddress = Phy_To_Virt (page->PHY_address); 
slab->page = page; 
lJist_init(&slab->list); 
for(i = 0;i < slab->color_count;i++) 


*(slab->color map + (i >> 6)) ^= 1UL << i % 


64; 
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break; 
default: 


Color_printk (RED, BLACK, "kmalloc_ create() ERROR: wrong size:%08d\n",size); 
free_pages (page,1); 
return NULL; 


代码 清单 9-19 包 含 了 第 二 个 分 支 程 序 和 默认 分 支 程序 。 第 二 个 分 支 程 序 将 使 用 kmalloc 函 数 为 
struct Slab 结 构 体 和 颜色 位 图 申请 存储 空间 ， 这 样 可 有 效 减 少 物理 页 空间 的 浪费 ， 提 高 物理 页 空间 
的 利用 率 。 例 如 ， 当 内 存 对 象 的 容量 范围 在 32768~1048576 时 ， 颜 色 位 图 的 尺寸 会 变 得 极 小 ， 内 存 池 
甚至 可 使 用 一 个 UNSIGNED LONG 类 型 变量 来 管理 。 如 果 管 理 空间 仍 保存 在 物理 页 中 ， 则 至 少 会 浪费 1 
KB 的 存储 空间 。 以 此 类 推 , 对 于 2 MB 的 物理 页 而 言 , 这 就 意味 着 它 只 能 容纳 下 一 个 1 MB 的 内 存 对 象 ， 
此 时 的 内 存 使 用 率 几 近 50%， 以 如 此 惨痛 的 空间 浪费 作为 代价 , 却 并 未 换 来 性 能 上 的 提升 。 由 此 可 见 ， 
第 一 个 分 支 程序 不 适用 于 大 尺寸 内 存 对 象 的 内 存 池 。 第 二 个 分 支 程序 的 初始 化 赋值 部 分 与 第 一 个 分 支 
程序 相同 ， 这 里 就 不 再 歼 述 了 。 

如 果 程 序 执行 至 aefault 默 认 分 支 ， 则 说 明 当 前 程序 运行 出 错 ， 在 打印 错误 日 志 信 息 后 释放 已 申 
请 的 空闲 物理 页 。 


9.2.3 ”通用 内 存 的 回收 函数 kfree 


本 节 将 对 通用 内 存 回 收 函 数 kfree 进 行 讲解 ， 它 与 上 节 的 通用 内 存 分 配 函 数 kmalloc 组 成 一 对 功 
能 相反 的 互补 函数 。 在 内 存 分 配 函 数 中 ，kmalloc_create 函 数 可 根据 内 存 对 象 的 尺寸 选择 不 同 的 程 
序 分 支 来 扩展 内 存 池 。 对 于 互补 关系 的 内 存 回收 函数 kfree 而 言 , 它 同样 存在 着 对 应 的 互补 程序 分 支 ， 
在 满足 条 件 的 前 提 下 ， 缩 减 空 闪 过 盛 的 内 存 池 体 积 ， 代 码 清单 9-20 是 kfree 函 数 的 程序 实现 。 


代码 清单 9-20 ”第 9 章 \ 程 序 \ 程 序 9- 才 物理 平台 \kernel\memory.c 


unsigned long kfree(void * address) 


{ 


int i; 

int index; 

struct Slab * Slab = NULL; 

void * page _ base _ address = (void *) ((unsigned long)address & PAGE 2M MASK); 


for(i = 0;i < 16;i++) 
{ 
Slab = kmalloc_ cache_ size[i].cache pool; 
do 
人 
if(slab->Vaddress == page_base _ address) 
{ 


index = (address - slab->Vaddress) / kmalloc_cache_ sizel[li].size; 
*(slab->color_ map + (index >> 6)) ^= 1UL << index % 64; 


slab->free_count++; 
slab->using_count--; 
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kmalloc_cache_size[il.total_ free++:， 
kmalloc_cache size[i].total using--; 


kfree 函 数 执行 的 第 一 步 是 将 目标 线性 地 址 ( 待 释放 的 内 存 对 象 ) 按照 2 MB 物理 页 边界 对 齐 ， 进 

而 获得 其 所 在 物理 页 的 起 始 线 性 地 址 。 随 后 ，kfree 函 数 从 内 存 池 组 中 找到 与 此 地 址 相 匹 配 的 物理 页 
(由 struct Slab 结构 负责 管理 )， 进 而 确定 待 释放 内 存 对 象 所 在 struct slab 结 构 。 复 位 颜色 位 图 
(位 于 struct slab 结 构 体 内 ) 中 的 对 应 位 ， 并 调整 相关 计数 器 ， 便 可 完成 内 存 对 象 的 释放 工作 。 

请 读者 注意 局 部 变量 page_base_adqdress 的 数据 类 型 (void * ) 在 ANSI 标 准 和 GNU 标 准 中 
区 别 。ANSI 标 准 不 允许 对 void * 数 据 类 型 进行 算法 操作 ， 但 在 GNU 标 准 中 却 可 以 。GNU 标 准 规 
定 void * 数 据 类 型 的 算法 操作 将 与 cnar * 数 据 类 型 保持 一 致 。 因 此 ， 对 于 使 用 GNU C 语 言 编写 程 
序 的 我 们 而 言 ， 我 们 大 可 放心 使 用 voiq * 数 据 类 型 进行 算法 操作 。 

至 此 ， 内 存 对 象 的 回收 工作 已 经 结束 。 此 刻 ， 如 果 内 存 池 中 的 空闲 内 存 对 象 过 多 ， 内 存 池 将 尝试 
缩减 内 存 池 的 空间 ， 详 细 处 理 过 程 请 继续 往 下 看 代码 清单 9-21。 


代码 清单 9-21 第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平台 \kernel\memory.c 


于 


if((slab->using_count == 0) && (kmalloc cache sizel[il].total_ free >= 
slab->color_count * 3 / 2) && (kmalloc_cache_size[i]. cache_ 
pool != slab)) 


switch(kmalloc_ cache_ sizel[i].size) 
{ 
/11/11/1111/1//1/1/1//////slab + map in 2M page 


case 32: 

case 64: 

case 128: 

case 256: 

case 512: 
list_del(&slab->list); 
kmalloc_cache_size[il.total_ free -= slab->color_count; 


page_clean(slab->page); 
free_pages (slab->page,1); 


break; 
default: 
list_del(&slab->list); 
kmalloc_ cache_ sizel[lil].total_free -= slab->color_count; 


kfree(slab->color_map); 


page_clean(slab->page); 
free_pages (slab->page,1); 
kfree(slab); 
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break; 
} 
return 1; 
} 
else 
slab = container of (list _ next (&slab->list),struct Slab,list); 


}while(slab != kmalloc cache_ size[il].cache pool); 


} 


Color_printk (RED,BLACK, "kfree() ERROR: can't free memory\n"); 
return 0; 


} 

这 段 代 码 主要 用 于 判断 释放 当前 struct slab 结 构 体 及 数据 存储 空间 的 可 行 性 。 如 果 该 struct 
Slab 结构 体 满足 以 下 三 个 条 件 便 可 销毁 : 

(1) 当前 struct Slab 结构 体 管理 的 内 存 对 象 全 部 空闲 ; 

(2) 内 存 池 仍 有 超过 1.5 倍 slab->color_count 数 量 的 空闲 内 存 对 象 ; 

(3) 此 struct slap 结 构 不 是 当初 手动 创建 的 静态 存储 空间 。 

销毁 过 程 将 释放 struct Slab 结构 体 以 及 存储 空间 。 我 们 依据 内 存 对 象 的 尺寸 可 将 销毁 过 程 分 为 
两 个 程序 分 支 ， 其 尺寸 范围 的 选择 与 分 配 过 程 相 一 致 。 这 个 销毁 过 程 的 代码 实现 非常 简单 ， 请 读者 对 
照 分 配 过 程 的 代码 实现 自行 阅读 。 

下 面 将 对 通用 内 存 分 配 与 回收 函数 的 运行 效果 进行 测试 。 代 码 清 单 9-22 测 试 了 不 同 尺 寸 内 存 对 象 
的 分 配 与 回收 工作 ， 并 对 1 MB 内 存 池 的 管理 逻辑 进行 了 测试 。 


代码 清单 9-22 ”第 9 章 \ 程 序 \ 程 序 9-1\ 物 理 平 台 \kernelvmain.c 


void Start_Kernel (void) 


Color_printk (RED,BLACK, "interrupt init \n"); 
init_interrupt (); 


Color_printk (RED,BLACK, "slab init \n"); 
slab_init(); 


Color_printk (ORANGE, BLACK, "4.memory_management_struct.bits_ map:%#0181x\ 
tmemory_management_struct.bits_ map+l1:%#0181lx\tmemory_management_struct. 
bits_map+2:%#018lx\tzone_struct->page using count:%d\tzone_ struct->page_ 
free_count:%d\n",*memory_management_struct.bits map,* (memory_management_ 
struct.bits map+1),* (memory_management_struct.bits map+2),memory_ 
management_struct.zones_struct->page_using_count,memory_management_ 
struct.zones_struct->page_free_count); 


color_printk (WHITE,BLACK, "kmalloc test\n"); 

for(i = 0;i< 16;i++) 

人 
Color_printk (RED,BLACK, "size:%#010x\t",kmalloc_ cache_size[i].size); 
Color_printk (RED, BLACK, "color_map (before) :%#0181lx\t",*kmalloc_ cache sizel[il]. 
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tmp 


color_printk (RED,BLACK, "color_map (middle) 


cache_pool->color_map); 


= kmalloc(kmalloc cache_ size[i].size,0); 
if (tmp == NULL) 
color_printk (RED,BLACK, "kmalloc size:%#010x ERROR\Nn",Kkmalloc cache_ 


size[i] .size); 


size[i].cache pool->color_map); 


kfree(tmp); 


color_printk (RED,BLACK, "color_map (after) 


} 


kmalloc (kmalloc_ cache_size 
kmalloc (kmalloc_ cache_size 
kmalloc (kmalloc_ cache_size 
kmalloc( 

kmalloc (kmalloc_ cache_size 
kmalloc (kmalloc_ cache_size 
kmalloc (kmalloc_ cache_size 


color_printk (RED,BLACK, "color_map (0) :%#0181x,%#01 
cache_ pool->color_map,*kmalloc_cache_ sizel[15 


cache_pool->color_map); 


.Size,0 
.Size,0 


’ 
’ 


[15] ) 
[15] ) 
[L151]. Sil2en0) 3 
kmalloc_ cache_ size[15] .size,0); 
[ 工 5] 8ize,0).; 
[15] .size,0); 
[:L5}] ) 


’ 


.Size,0 


:S$#0181]x\t",*kmalloc_cache_ 


:S$#018lx\n",*kmalloc_cache sizel[il]. 


18lx\n",kmalloc_ cache_ sizel[15]. 
.Cache_pool->color_map); 


slab = container of (list next (&kmalloc_ cache_ size[15] .cache pool->list),struct 


Slab, liet)s 
color_printk (RED,BLACK, "color_map (1) :%#0181x,%#01 
*slab->color_map); 


slab = container of (list next (&slab->list),struct Slab,list); 


color_printk (RED,BLACK, "color_map (2) :%#0181x,%#01 
*slab->color_map); 


slab = container of (list next (&slab->list),struct Slab,list); 


color_printk (RED,BLACK, "color_map (3) :%#0181x,%#01 
*slab->color_map); 


// Color_printk!(RED,SB 


LL task intit(0y)s 


while(1) 


} 


执行 task_init 函 数 是 内 核 初始 化 程序 的 最 后 一 步 ， 


观察 运行 效果 ， 此 处 已 将 Etask_init 函 数 
用 内 存 管理 单元 ， 当 其 初始 化 完毕 后 ， 再 将 相关 记录 信息 打印 出 来 ， 以 判断 初始 化 过 程 
然 多 次 显示 相关 记录 信息 会 让 人 感 党 有 些 保守 、 累 歼 ， 但 却 表明 了 内 存 管理 


LACK, "task_init \n"); 


18l1x\n",slab->color_map, 


18lx\n",slab->color_map, 


181lx\n",slab->color_map, 


屏蔽 。 这 段 测 试 程序 ， 首 先 调 


因此 测试 程序 应 该 添加 在 其 前 函 


ij。 为 了 便于 


用 slap_init 隐 数 来 初始 化 通 


的 正确 性 。 虽 


有 单元 在 操作 系统 中 的 重要 


性 。 内 存 作为 系统 的 一 个 重要 组 成 部 分 ， 是 所 有 程序 运行 的 基础 。 如 果 内 存 管 理 单元 发 生 故 障 ， 那 么 


故障 的 再 现 和 调试 过 程 都 十 分 困难 


存 管理 单元 也 是 自 系 统 开发 以 来 ， 最 为 耗 时 的 一 章 。 
接 下 来 ， 将 对 内 存 池 组 中 的 每 一 个 内 存 池 进 行 分 配 和 回收 测试 ， 在 分 配 和 回收 内 存 对 象 的 前 后 ， 


E， 因 此 在 设计 初期 我 们 就 应 该 保证 程序 运行 的 正确 公 


E 和 稳定 性 ， 内 


颜色 位 图 的 使 用 情况 都 会 显示 。 最 后 ， 我 们 再 连续 7 次 申请 1 MB 的 内 存 对 象 ， 并 显示 出 内 存 池 中 的 全 


部 颜色 位 图 信息 ， 以 测试 内 存 池 在 扩容 过 程 中 的 正 胡 


性 及 稳定 性 ， 测 试 程序 的 运行 效果 刀 


0 图 9-2 所 示 。 
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图 9-2 ”通用 内 存 池 组 的 测试 效果 图 


从 图 9-2 可 以 看 出 ， 在 调用 slab_init 函 数 后 ， 内 存 页 的 使 用 量 从 1 变 为 17 (包括 内 核 程序 占用 的 
0~2 MB 内 存 空间 )。 随 后 ， 各 个 内 存 池 将 分 配 一 个 内 存 对 象 ， 其 颜色 位 图 的 首位 会 被 置 位 ， 而 在 调用 
回收 函数 后 ,该 位 又 会 被 复位 。 接 着 ,我 们 再 对 1 MB 内 存 池 进 行 容量 扩充 测试 ， 并 将 内 存 池 的 使 用 情 
况 ( 颜 色 位 图 ) 显示 出 来 。 这 段 测试 程序 ， 连 续 分 配 了 7 个 1 MB 的 内 存 对 象 ， 共 调用 了 3 次 kmalloc_ 
create 函 数 , 最 后 一 个 颜色 位 图 仅 有 一 位 被 置 位 , 表明 此 管理 空间 只 有 一 个 内 存 对 象 处 于 使 用 状态 。 


9.3 ”调整 物理 页 管理 功能 
关于 物理 页 的 管理 功能 已 在 第 4 章 中 初步 实现 ， 但 其 仍 有 诸多 设计 上 的 缺陷 与 不 足 。 本 节 将 会 对 
其 进行 修改 和 调整 ， 使 其 更 加 完善 、 高 效 。 


与 此 同时 ， 为 了 方便 阅读 和 编程 ， 这 里 再 做 一 些 函 数 设计 上 的 调整 : 如 果 函 数 的 返回 值 用 于 标识 
操作 结果 ， 则 统一 用 数值 1 代表 操作 成 功 、0 代 表 操 作 失败 。( 系统 API 库 函数 遵循 其 他 规定 。 ) 


9.3.1 内 存 管理 单元 结构 及 相关 函数 调整 


此 前 定义 的 PG_Referenced、PG_Up_To_Date、PG_K_Share_To_U 等 内 存 页 属性 ,在 编程 时 容 
易 给 开发 者 造成 功能 表达 不 明确 、 组 合 起 来 复杂 等 困扰 。 因 此 ， 在 修改 物理 页 管理 函数 之 前 ， 需 要 调 
整 内 存 页 属性 的 定义 ， 代 码 清单 9-23 是 调整 后 的 内 存 页 属性 宏 定义 。 


代码 清单 9-23 ”第 9 章 \ 程 序 \ 程 序 9-2\ 物 理 平 台 \kernelvmemory.h 


// mapped=1 or un-mapped=0 
#define PG_PTable Maped (1 << 0) 
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// init-code=1 or normal-code/data=0 
#define PG Kernel_Init (TE ay 


// device=1 or memory=0 
#define PG Device (1 “er 2) 


// kernel=1 or user=0 
#define PG Kernel (hh Se 3) 


// shared=1 or single-use=0 

#define PG_ Shared (1 << 4) 

上 述 内 存 页 属性 可 归纳 为 页 表 上 映射、 内存/ 设备 空间 、 内 核 层 /应 用 层 、 共 享 / 独 享 等 几 类 ， 详 细 的 
属性 含义 请 见 表 9-1。 


表 9-1 页 面 属性 表 


属 性 名 状态 〈 置 位 ) 状态 〈 复 位 ) 
Po_PTable_Maped 已 在 页 表 中 映射 未 在 页 表 中 映射 
PO_Kernel_Init 内 核 初始 化 程序 非 内 核 初始 化 程序 
Pe:Device 设备 寄存 器 /内 存 物理 内 存 空间 
和 内 核 层 地 址 空间 应 用 层 地 址 空间 
PG_Shared 已 被 共享 的 内 存 页 未 被 共享 的 内 存 页 


本 节 不 光 要 对 内 存 页 属性 的 定义 进行 修改 ， 还 要 对 内 存 页 的 初始 化 、 清 除 等 一 系列 功能 进行 调整 
和 追加 。 

以 内 存 页 使 用 前 的 准备 工作 为 例 ， 若 想 使 用 内 存 页 ， 则 必须 经 过 分 配 和 初始 化 两 个 步 又 。 在 起 
初 的 设计 过 程 中 ， 内 存 管理 单元 误 将 内 存 页 分 配 函 数 的 一 部 分 管理 功能 转移 至 初始 化 函数 里 ， 这 就 
导致 初始 化 函数 的 功能 过 多 ,不 便于 独立 使 用 。 现 将 这 些 管 理 程序 从 初始 化 函数 迁移 至 分 配 函 数 ， 
进而 使 得 初始 化 函数 可 对 同一 内 存 页 执行 多 次 初始 化 。 代 码 清单 9-24 是 调整 后 的 内 存 页 初始 化 与 清 
除 函 数 。 


代码 清单 9-24 第 9 章 \ 程 序 \ 程 序 9-2\ 物 理 平台 \kernel\memory.c 


unsigned long page_init(struct Page * page,unsigned long flags) 


{ 


page->attribute |= flags; 


if(!page->reference count || (page->attribute & PG_ Shared)) 
{ 
page->reference_count++; 
page->zone_struct->total_pages_link++; 
} 
return 1; 


} 


unsigned long page_ cleanl(struct Page * page) 


{ 
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page->reference_count--; 
page->zone_struct->total_pages_link--; 


if(!page->reference_count) 
{ 


page->attribute &= PG_PTable_ Maped; 
} 
return 1; 


} 
这 上段 代码 不 仅 将 管理 程序 从 函数 中 移 除 ， 还 调整 了 共享 页 属性 的 判断 过 程 。 经 过 调整 后 的 程序 ， 
功能 明确 、 执 行 速度 快 ， 其 代码 一 目 了 然 ， 这 里 就 不 再 详细 讲述 。 


为 了 增强 内 存 页 的 管理 功能 ， 此 处 新 增 一 对 用 于 操作 内 存 页 属性 的 功能 函数 ， 具 体 函 数 定义 请 参 
见 代 码 清 单 9-25。 


代码 清单 9-25 ”第 9 章 \ 程 序 \ 程 序 9-2\ 物 理 平台 \kernel\memory.c 


unsigned long get_ page attripbute(struct Page * page) 
{ 
if (page == NULL) 
{ 
Color_printk (RED,BLACK, "get_page_attripute() 


ERROR: page == NULL\n"); 
return 0; 


} 
else 
return page->attribute; 


} 


unsigned long set page attripbute(struct Page * page,unsigned long flags) 


if (page == NULL) 
{ 


color_printk (RED,BLACK, "set_page_attribute!() 


ERROR: page == NULL\n"); 
return 0; 


lL 

else 

{ 
page->attripbute = flags; 
return 1; 


} 


函数 get_page_attribute 与 set_page_attripute 为 内 核 程 序 提供 了 获取 和 修改 内 存 页 属性 
的 操作 接口 ， 它 们 的 代码 实现 非常 简单 ， 此 处 就 不 再 袭 述 。 


9.3.2 ”调整 alloc_pages 函数 


alloc_pages 了 清 数 作为 内 存 管理 单元 的 基础 函数 ， 在 修改 其 代码 时 应 反复 论证 ， 以 避免 潜在 的 隐 
患 ， 并 尽量 保持 高 效 、 稳 定 运 行 。 这 也 是 本 次 修改 alloc_pages 函 数 的 主要 依据 。 


Es we 


函数 alloc_pages 的 修改 过 程 将 分 为 : 追加 管理 功能 代码 、 追 加 内 存 页 属性 的 初始 赋值 代码 、 删 
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减 元 余 及 消耗 性 能 的 代码 三 个 主要 部 分 。 接 下 来 将 逐 段 对 alloc_pages 也 数 进行 修改 ， 请 先 看 代码 清 
单 9-26。 


代码 清单 9-26 第 9 章 \ 程 序 \ 程 序 9-2\ 物 理 平台 \kernel\memory.c 


关山 
number: number < 64 
Zone_select: zone select from dma , mapped in pagetable , unmapped in pagetable 
page_flags: struct Page flages 

水 这 


struct Page * alloc pages (int zone_select,int number,unsigned long page_flags) 


if(number >= 64 || number <= 0) 

{ 
Color_printk (RED,BLACK, "alloc pages() ERROR: number is invalid\n"); 
return NULL; 

} 


switch(zone_select) 
{ 

Case ZONE_DMA: 
zone_start = 0; 
zone_engd = ZONE_DMA_INDEX; 
attribute = PG_PTable Maped; 

break; 


Case ZONE_NORMAL: 
zone_start = ZONE_ DMA_INDEX; 
zone_end = ZONE_ NORMAL INDEX; 
attribute = PG_PTable Maped; 

break; 


Case ZONE_UNMAPED: 
Zone_start = ZONE_UNMAPED_INDEX; 
zone_end = memory_management_struct.zones_size - 1; 
attribute. = 0; 
break; 


default: 
color_printk (RED,BLACK, "alloc pages() ERROR: zone_select index is 
invalid\n"); 
return NULL; 
break; 


此 段 程序 把 函数 alloc_pages 一 次 所 能 申请 的 最 大 内 存 页 数量 从 原来 的 64 调 整 为 63, 并 加 入 对 申 
请 数值 ( 保存 于 参数 number 内 ) 的 验证 程序 ， 以 保证 申请 数值 位 于 1~63。 随 后 ， 在 内 存 区 域 选择 过 
程 中 ,根据 区 域 选 择 参数 zone_select 来 确定 待 分 配 内 存 页 的 默认 属性 。 对 于 ZONE_DMA、 
ZONE_NORMAL 区 域 来 说 ， 它 们 的 默认 页 属性 为 PG_PTable_Maped， 表 示 此 物理 页 已 在 页 表 中 映射 。 


| 


本 
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而 ZONE_UNMAPED 区 域 里 的 内 存 页 却 未 在 页 表 中 映射 。 
当 确 定 内 存 页 的 分 配 区 域 后 ， 内 存 页 分 配 函 数 将 进入 已 选区 域 的 空闲 内 存 页 遍历 环节 ， 此 处 已 对 
这 个 环节 进行 了 多 处 修改 ， 详 细 的 修改 内 容 请 继续 往 下 看 代码 清单 9-27。 


代码 清单 9-27 第 9 章 \ 程 序 \ 程 序 9-2\ 物 理 平台 \kernel\memory.c 


for(i = Zone_ start; i <= Zone_end; I++) 


{ 


struct Zone * Z); 
unsigned long j; 
unsigned long start,end; 
unsigned long tmp; 


if( (memory_management_struct.zones_struct + i)->page_free count < number) 
continue; 


Z = memory_management_struct.zones_struct + i; 
start = 2z->zone_start_address >> PAGE 2M_SHIFT; 
end = z->zone_end_address >> PAGE 2M_ SHIFT; 


tmp = 64 - start % 64; 


for(j = start;j < end;j += jg 64 ? tmp : 64) 
{ 
unsigned long * p = 
unsigned long k = 0; 
unsigned long shift = j % 64; 
unsigned long num = (1UL << number) - 1; 


memory_management_struct.bits map + (j >> 6); 


for(k = shift;k < 64;k++) 
{ 


TE (RB Se ky (6 RN nd) 
unsigned long 本 
page =j +k- shift; 
for(1 = 0;1 < number;1++) 


下 
struct Page * pageptr = memory_management_struct.pages_ 
struct + page + 1; 


*(memory_ management_struct.bits map + ((pageptr->PHY_address >> 
PAGE_2M_SHIFT) >> 6)) |= 1UL << (pageptr->PHY_address >> 
PAGE_2M_SHIFT) % 64; 

Z->page_using_count++:， 

Zz->page_free_ count--; 

pageptr->attribute = attribute; 

} 
goto fingd_ free pages; 
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这 上段 程序 的 作用 是 从 已 选区 域 中 遍历 出 空闲 内 存 页 。 对 比 之 前 的 程序 ， 为 了 提高 运行 效率 ， 此 处 
删除 了 局 部 变量 1ength 以 及 相关 代码 。 同 时 ,为 了 提高 内 层 循环 if 语句 的 判断 速度 ， 特 将 匹配 值 ( 保 


存在 局 部 变量 num 里 ) 的 计算 代码 num = (1UL << number) - 1 迁移 至 外 层 循环 中 。 


如 果 代 码 ((xp >> k) | (*(p + 1) << (64 - Kk))) 在 运算 过 程 中 遇 到 k=0 的 情况 ,那么 x (p 
+ 将 左 移 644 位 ， 从 而 导致 移 位 计数 器 超出 64 位 寄存 器 的 最 大 位 宽 。 依 照 Intel 官 方 白皮书 的 描述 : 处 


理 器 会 根据 运行 模式 支持 的 通用 寄存 器 位 宽 ， 确 定 移 位 寄存 器 的 有 效 位 数 (32 位 宽 的 有 效 位 数 是 5， 


可 表示 数值 0~31; 64 位 宽 的 有 效 位 数 是 6 位 ， 可 表示 数值 0~63 )， 超 过 范围 的 数据 将 被 屏 项 。 在 IA-32e 
模式 下 ， 代 码 * (pb + 1) << 64 等 价 于 * (p + 1) << 0， 再 和 代码 *p >> k 执 行 按 位 或 运算 ， 将 生成 


非 预期 结果 。 因 此 ， 当 k=0 时 ， 用 *p 进 行 匹配 。 


如 果 遍 历 出 满足 条 件 的 内 存 页 ， 内 存 页 分 配 函 数 就 将 其 标记 为 已 使 用 ( 置 位 BIT 映射 位 图 的 对 应 


位 )。 然后， 调整 相关 计数 器 并 返回 内 存 页 对 应 的 struct page 结 构 体 。 
目前 ，Bochs 虚 拟 机 最 多 只 能 使 用 2 GB 内 存 ， 这 使 得 初级 内 存 管理 单元 只 能 使 
ZONE_NORMAL_INDEX 区 域 。 而 到 了 高 级 内 存 管理 单元 ， 内 核 程序 已 运行 于 物理 平台 中 ， 


有 0~4 GB 的 
充足 的 物理 


内 存 使 得 系统 可 以 从 ZzONE_UNMAPED_INDEX 区 域 分 配 物理 页 。 为 了 使 用 ZzONE_UNMAP 


域 ， 还 需 对 init_memory 函 数 进行 调整 ， 代 码 清单 9-28 是 调整 后 的 各 个 程序 片段 。 
代码 清单 9-28 第 9 章 \ 程 序 \ 程 序 9-2\ 物 理 平台 \kernel\memory.c 


void init_ memory () 


ED_INDEX 区 


set_page_attribute(memory_ management_struct.pages_struct,PG PTable Maped | 


PG_Kernel_Init | PG Kernel); 
memory_management_struct.pages_struct->reference_count = 1; 
memory_management_struct.pages_struct->age = 0; 


ZONE_DMA_INDEX = 0; 
ZONE_NORMAL_INDEX = 0; 
ZONE_UNMAPED_INDEX = 0; 


for(i = 0;i < memory_management_struct.zones_ size;i++) 


{ 


struct Zone * Z = memory_management_struct.zones_struct + i; 


Color_printk (ORANGE, BLACK, "zone_start_address:%$#0181x,zZone_end_ address: 
$S#0181lx,zone_length:%#0181x,pages_group:%#0181lx,pages_length:%#0181lx\n", 
Z->zone_start_address,z->zone_end address,z->zone_length,z->pages_group, 


z->pages_length); 


if(z->zone_start_address >= 0x100000000 && !ZONE_ UNMAPED_INDEX) 
ZONE_UNMAPED_INDEX = i; 
} 


Color_printk (ORANGE, BLACK, "ZONE_DMA_INDEX:%d\tZONE_NORMAL_INDEX:%d\tZONE_ 
UNMAPED_INDEX:%d\n",ZONE_ DMA_INDEX,ZONE_ NORMAL INDEX,ZONE_ UNMAPED_INDEX); 
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此 段 代 码 通过 函数 set_page_attribute 为 内 核 程序 所 在 内 存 页 结构 设置 属性 , 并 调整 这 些 内 存 
页 的 统计 信息 。 随 后 ， 再 从 诸多 内 存 区 域 (通常 按 升序 排列 ) 中 挑选 出 第 一 个 起 始 物 理 地 址 大 于 等 于 
0x100000000 的 内 存 区 域 ， 将 其 作为 ZONE_UNMAPED_INDEX 的 起 始 区 。 

接 下 来 ,将 内 核 静态 存储 空间 所 在 内 存 页 标记 为 已 使 用 ( 设置 内 存 页 属性 并 更 新 统计 信息 )， 而 
后 添加 内 存 使 用 情况 的 显示 信息 ， 代 码 清单 9-29 是 这 部 分 功能 的 调整 代码 。 


代码 清单 9-29 ”第 9 章 \ 程 序 \ 程 序 9-2\ 物 理 平台 \kernel\memory.c 


i = Virt_To_Phy (memory_management_struct.end of_struct) >> PAGE 2M_ SHIFT; 


for(j = 1;j <= i;j++) 

{ 
struct Page * tmp_page = memory_management_struct.pages_struct + j; 
page_init (tmp_page,PG_ PTable Maped | PG Kernel_Init | PG Kernel); 
*(memory_management_struct.bits map + ((tmp_page->PHY_address >> PAGE 2M _ 

SHIFT) >> 6)) |= 1UL << (tmp_page->PHY_address >> PAGE 2M _ SHIFT) % 64; 

tmp_page->zone_struct->page_using_count+t+; 
tmp_page->zone_struct->page_free_count--; 


Color_printk (ORANGE, BLACK, "1 .memory_management_struct.bits_ map:%#018]lx\tzone_ 
struct->page_using_count:%d\tzone_struct->page_free count:%d\n",*memory_ 
management_struct.bits_map,memory_management_struct.zones_struct->page_ 
using_count,memory_management_struct.zones_struct->page_ free_count); 


这 段 程序 通过 一 个 循环 体 将 内 核 静 态 存储 空间 占用 的 内 存 页 全 部 标记 为 已 使 用 ， 并 更 新 这 些 内 存 
页 的 统计 信息 。 随 后 ， 再 显示 出 内 存 管理 信息 以 验证 整个 内 存 初始 化 过 程 的 正确 性 。 至 此 ， 整 个 
alloc_pages 国 数 修改 完毕 。 


ic 


9.3.3 创建 free_pages 函数 


既然 现在 完善 的 a11oc_pages 孔 数 已 经 拥有 ， 那 么 与 之 功能 相反 的 free_pages 函 数 也 应 该 实现 
出 来 。 代 码 清 单 9-30 是 free_pages 函 数 的 程序 实现 ， 读 者 可 对 上 照 a11oc_pages 了 水 数 的 代码 实现 进行 


阅读 。 
代码 清单 9-30 ”第 9 章 \ 程 序 \ 程 序 9-2\ 物 理 平台 \kernel\memory.c 
/ 大 


page: free page start from this pointer 
number: number < 64 
wf 


void free pages (struct Page * page,int number) 
{ 


Ti S08 


if (page == NULL) 
{ 
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color_printk(RED,BLACK,"free_pages () ERROR: page is invalidqNn" ) ， 
return ; 


if(number >= 64 || number <= 0) 

{ 
Color_printk (RED,BLACK, "free pages() ERROR: number is invalid\n"); 
return ; 


for(i = 0;i<number;i++,pPpage++) 
{ 
*(memory_management_struct.bits map + ((page->PHY_address >> PAGE 2M_ 
SHIFT) >> 6)) &= ~(l1lUL << (page->PHY_address >> PAGE 2M_ SHIFT) % 64); 
page->zone_struct->page_using_count--; 
page->zone_struct->page_free_count++; 
page->attribute = 0; 


} 
函数 free_pages 将 先 对 形式 参数 page 和 number 的 数值 进行 检测 ， 这 个 过 程 将 会 初步 检验 这 两 
个 数值 的 正确 性 。 如 果 数 值 检测 无 误 ， 函数 Eree_pages 将 逐个 回收 自 page 开 始 的 number 个 内 存 页 。 
内 存 页 的 回收 过 程 将 包括 复位 BIT 映 射 位 图 的 对 应 位 、 更 新 内 存 页 的 统计 信息 以 及 清除 内 存 页 属性 。 
现在 ， 内 存 页 的 申请 和 回收 功能 均 已 实现 ， 那 么 下 面 就 来 验证 两 者 的 执行 效果 。 代 码 清单 9-31 执 
行 了 三 次 内 存 页 申请 和 两 次 内 存 页 释放 工作 ， 而 且 各 申请 和 释放 过 程 都 将 伴随 内 存 管理 信息 的 显示 。 


代码 清单 9-31 第 9 章 \ 程 序 \ 程 序 9-2\ 物 理 平台 \kernel\main.c 


void Start_Kernel (void) 


Color_printk (RED,BLACK, "slab init \n"); 
slab_init(); 


page = alloc pages (ZONE_NORMAL,63, 0); 
page = alloc_ pages (ZONE_NORMAL,63, 0); 


color_printk (ORANGE, BLACK, "4.memory_management_struct.bits_ map:%#0181x\ 
tmemory_management_struct.bits_ map+1:%#018lx\tmemory_management_struct. 
bits_ map+2:%#0181lx\tzone_struct->page_using_count:%d\tzone_struct->page_ 
free_count:%d\n",*memory_management_struct.bits_ map,* (memory_management_ 
struct.bits map+1),* (memory_ management_struct.bits map+2),memory_ 
management_struct.zones_struct->page_using_count,memory_management_ 
Struct .Zones_struct->page_free_count ) 


for(i = 80;i <= 85;i++) 
{ 
color_printk (INDIGO,BLACK, "page%®03d attribute:%#018]lx address:%#0181x\t",i, 
(memory_management_struct.pages_struct + i)->attribute, (memory_ 
management_struct.pages_struct + i)->PHY_address); 
下 于 二 
color_printk(INDIGO, BLACK, "pagegsg03dq attribute:g#0181XxX address:%#0181lx\n",i, 
(memory_management_struct.pages_struct + i)->attribute, (memory_ 
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management_struct.pages_struct + i)->PHY_address); 


for(i = 140;i <= 145;i++) 


Color_printk (INDIGO,BLACK, "page%®%03d attribute:%#0181lx address:%#0181x\t",i, 
(memory_management_struct.pages_struct + i)->attribute, (memory_ 
management_struct.pages_struct + i)->PHY_address); 

i++; 

Color_printk (INDIGO,BLACK, "page®%03d attribute:%#0181lx address:%#0181x\n",i, 
(memory_management_struct.pages_struct + i)->attribute, 
(memory_management_struct. pages_struct + i)->PHY_address); 


free_pages (page,1); 


Color_printk (ORANGE, BLACK, "5.memory_management_struct.bits_ map:%#0181x\ 
tmemory_management_struct.bits map+l1:%#0181lx\tmemory_management_ 
struct.bits_ map+2:%#0181lx\tzone_struct->page _ using_ count:%d\tzone_ 
struct->page_free_ count:%d\n",*memory_management_struct.bits_map, 
*(memory_management_struct.bits map+1),* (memory_management_struct. 
bits_map+2),memory_management_struct.zones_struct->page_using_count, 
memory_management_struct.zones_struct->page_free_count); 


for(i = 75;i <= 85;i+t+) 
{ 
color_printk (INDIGO,BLACK, "page%03d attribute:g#0181X address:%#0181x\t",i, 
(memory_management_struct.pages_struct + i)->attribute, 
(memory_management_struct.pages_struct + i)->PHY_address); 
color_printk (INDIGO,BLACK, "page%03d attribute:g#0181X address:%#0181x\n",i, 
(memory_managemen truct.pages_struct + i)->attribute, 
(memory_managemen truct.pages_struct + i)->PHY_address); 


CS 
CS 


page = alloc pages (ZONE_UNMAPED, 63, 0); 


Color_printk (ORANGE, BLACK, "6.memory_management_struct.bits_ map:%#0181x\ 
tmemory_management_struct.bits map+l1:%#0181lx\tzone_struct->page_using_ 
Count:%Sd\tzone_struct->page_free_count:%d\n",* (memory_management_struct. 
bits_map + (page->PHY_address >> PAGE 2M_SHIFT >> 6)) ，r* (memory_management 
struct.bits map + 1 + (page->PHY_address >> PAGE 2M SHIFT >> 6)) ，(memory_ 
management_struct.zones_struct + ZONE_UNMAPED_INDEX)-> page_using_count, 
(memory_management_struct.zones_struct + ZONE_UNMAPED_INDEX) ->page_free_ 
count ); 


free_pages (page,1); 


Color_printk (ORANGE, BLACK, "7 .memory_management_struct.bits_ map:%#0181x\ 
tmemory_management_struct.bits map+l1:%#0181lx\tzone_struct->page_using_ 
Count:%Sd\tzone_struct->page_free_count:%d\n",* (memory_management_ 
struct.bits_ map + (page->PHY_address >> PAGE 2M_ SHIFT >> 6)) ,， *(memory_ 
management_struct.bits_ map + 1 + (page->PHY_address >> PAGE 2M_ SHIFT >> 6)) ， 
(memory_management_struct.zones_struct + ZONE_ UNMAPED_INDEX)->page using_ 
count, (memory_management_struct.zones_struct + ZONE_ UNMAPED_INDEX)->page_ 
free_ count ); 
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// color_printk(RED,BLACK, "LaSsk_init \n"); 
/7 Eask Tne(); 


while(1) 


7 


} 
这 段 程序 分 别 从 zoNE_NORMAL_INDEX 和 ZONE_UNMAPED_INDEX 区 域 中 申请 并 释放 了 若干 内 存 
而 不 R 


是 还 将 各 内 存 页 的 属性 以 及 内 存 管 理 信息 显示 在 屏幕 上 ， 图 9-3 是 验证 程序 的 运行 效果 。 


可 


)000001fe00000, 


)000001fe0000 


000001 


)000000000000001 zo 


map : Ox000000000001fff 


000010ed24,end_r 


)000100000,end 


9-3 ”内 存 页 的 申请 和 释放 功能 执行 效果 图 


至 此 , 物理 页 的 管理 功能 虽 已 完善 了 , 但 这 仍 不 是 最 终 版 本 , 也 许 在 不 久 的 将 来 还 会 引入 新 的 功能 。 


注意 ”本 节 代 码 已 同步 更 新 到 程序 9-1 的 代码 中 ， 读 者 不 必 再 对 其 进行 修改 。 


9.4 页 表 初 始 化 
已 实现 内 存 页 的 申请 和 释放 、 通 用 内 存 的 分 配 和 回收 、SLAB 内 存 池 等 功能 。 


现在 ,内 存 管理 单元 
但 页 表 却 仅 有 区 区 24 个 物理 页 (48 MB 物理 内 存 ) 完成 了 页 面 映射 , 剩余 物理 内 存 除非 完成 页 面 映 射 ， 


否则 无 法 直接 使 用 。 这 就 导致 ZONE_NORMAL_INDEX 区 域 只 能 分 配 出 有 限 的 几 个 内 存 页 。 
不 仅 如 此 ， 目 前 VBE 帧 缓存 区 仍然 占用 着 一 块 本 应 属于 物理 页 的 线性 地 址 空间 ( 位 了 
EX 区 域内 )。 这 种 规划 虽然 在 内 核 初始 阶段 可 以 接受 , 但 内 核 程 序 已 运行 至 此 ， 如 
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果 继 续 占 用 物理 页 的 线性 地 址 空间 就 显得 十 分 不 妥 ， 必 须 将 其 重 映射 到 更 合理 的 位 置 才 行 。 
本 章 余下 篇 幅 将 通过 重新 初始 化 页 表 ， 并 重 映射 VBE 帧 缓存 区 来 解决 上 述 问题 。 


9.4.1 页 表 重 新 初始 化 


页 表 的 重新 初始 化 过 程 会 对 内 核 页 表 重 新 赋值 ， 并 为 其 创建 子 页 表 ， 直 至 将 0~4 GB 内 的 物理 页 映 
射 到 线性 地 址 空间 。 整 个 初始 化 过 程 会 涉及 线性 地 址 、 物 理 地 址 和 C 语 言 指 针 等 知识 ， 这 是 一 次 基于 
地 址 变换 的 编程 考验 。 

为 了 帮助 读者 缕 清 地 址 转换 过 程 ， 特 将 页 表 初 始 化 函数 pagetable_init 拆 解 为 几 个 片段 讲解 。 
函数 pagetable_init 在 重新 赋值 页 表 前 打印 系统 各 级 页 表 ( 内 核 初始 页 表 ) 的 起 始 地 址 (包括 线性 
地 址 和 物理 地 址 )， 具体 实现 过 程 请 看 代码 清单 9-32。 


代码 清单 9-32 第 9 章 \ 程 序 \ 程 序 9-3\ 物 理 平台 \kernel\memory.c 


void pagetable_init() 
{ 


unsigned long i,j; 
unsigned long * tmp = NULL; 


Global_CR3 = Get_gdt (); 

tmp = (unsigned long *) (((unsigned long)Phy_To_ Virt((unsigned long)Global_ CR3 & 
(0KEEEUD})Y) 4 8 00) 

Color_printk (YELLOW, BLACK, "1:%#0181x,%#0181lx\t\t\n", (unsigned long)tmp,*tmp); 


tmp = Phy_To_Virt(*tmp & (~0OxfffUL)).; 
Color_printk (YELLOW, BLACK, "2:%#0181x,%#0181lx\t\t\n", (unsigned long)tmp,*tmp); 


tmp = Phy_To_Virt(*tmp & (~0xfffUDL) ) 
Color_printk (YELLOW, BLACK, "3:%#0181x,%#0181lx\t\t\n", (unsigned long)tmp,*tmp); 


此 段 代 码 使 用 cet_gat 函 数 来 取得 CR3 控 制 寄存 器 保存 的 顶层 页 表 的 物理 基地 址 。 由 于 CR3 控 制 
寄存 器 中 含有 标志 人 位， 故此， 这 里 要 使 用 代码 (unsigned long)Global_CR3 & (~ 0xfffUL) 将 标 


志 位 屏蔽 ， 所 得 结果 即 是 顶层 页 表 的 物理 基地 址 。 随 后 ,通过 宏 Phy_To_Virt 将 物理 地 址 转换 为 线性 
地 址 。 以 此 方法 ， 可 逐 级 取得 页 表 的 线性 基地 址 和 页 表 项 值 ， 并 将 这 些 数值 打印 出 来 ， 再 与 head.S 文 
件 中 编写 的 初始 页 表 项 配置 值 进行 比较 ， 进 而 验证 程序 执行 的 正确 性 。 

接 下 来 的 两 段 程序 将 把 ZONE_NORMAL_INDEX 区 域内 的 物理 页 全 部 映射 到 线性 地 址 空间 内 。 这 个 
过 程 将 会 解析 struct Global_Memory_Descriptor 结 构 体 ， 以 确定 所 遍历 区 域 数 量 和 每 个 区 域 包 


含 的 物理 页 个 数 ， 详 细 过 程 请 看 代码 清单 9-33。 
代码 清单 9-33 ”第 9 章 \ 程 序 \ 程 序 9-3\ 物 理 平台 \kernel\memory.c 


for(i = 0;i < memory_management_struct.zones_size;i++) 

{ 
struct Zone * Z = memory_management_struct.zones_struct + i; 
struct Page * p = 2z->pages_group; 
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if (ZONE_UNMAPED_INDEX && i == ZONE_UNMAPED_INDEX) 
break; 


for(j = 0;j < 2z->pages_length ; j++,pP++) 
{ 


tmp = (unsigned long *) (((unsigned long)Phy_To_Virt( (unsigned long)Global_CR3 
& (~ OxfffUL))) + (((unsigned long)Phy_To_Virt (p->PHY_address) >> PAGE 
_GDT_ SHIFT) & Oxlff) * 8); 


Ty, 三 三 90) 
{ 
unsigned long * virtual = kmalloc (PAGE 4K_SIZE,0); 
set_mpl4t (tmp,mk_mpl4t (Virt_To_Phy (virtual),PAGE_ KERNEL_ GDT)); 


代码 清单 9-33 将 遍历 除 ZONE_UNMAPED_INDEX 以 外 的 所 有 区 域 , 并 把 区 域 中 的 每 个 物理 页 映射 到 


线性 地 址 空间 。 区 域 结构 体 struct zone 的 成 员 变 量 pages_length 记 录 着 此 区 域 管辖 的 物理 页 总 


数 


， 该 值 可 确定 此 区 域 映射 的 物理 页 数量 。 
各 区 域 的 遍历 过 程 均 会 使 用 全 局 变量 Gl1obal_cR3 来 获得 顶层 页 表 的 物理 基地 址 ， 此 页 表 的 物理 


地 址 并 将 转换 为 线性 地 址 (通过 宏 Phy_To_virt 实 现 )。 接 着 ， 再 计算 出 目标 物理 页 所 在 线性 地 址 ， 


将 


人 


宏 


全 


此 线性 地 址 右 移 39 位 ( PAGE_GDT_SHIFT )， 以 索引 出 其 所 在 顶层 页 表 项 。 

如 果 该 页 表 项 的 数值 为 0。， 则 说 明 其 尚未 进行 次 级 页 表 映 射 ， 那 就 使 用 kmalloc 函 数 为 其 分 配 一 
容量 为 4KB 的 内 存 对 象 作为 次 级 页 表 ， 并 将 次 级 页 表 的 起 始 线性 地 址 转换 为 物理 地 址 。 最 后 ， 使 用 
set_mpl4t 把 次 级 页 表 的 物理 地 址 (通过 宏 Phy_To_vVirt 实 现 ) 与 页 表 属 性 相 结 合 ， 制 作成 顶层 


TT 


在 配置 出 顶层 页 表 项 后 ， 我 们 将 按 此 方法 逐 层 遍历 各 级 页 表 ， 直 至 将 目标 物理 页 映射 到 线性 地 址 


空间 ， 此 过 程 由 代码 清单 9-34 来 实现 。 


代码 清单 9-34 第 9 章 \ 程 序 \ 程 序 9-3\ 物 理 平台 \kernel\memory.c 


tmp = (unsigned long *) ((unsigned long)Phy_To Virt(*tmp & (~ OxfffUL)) + 
(((unsigned long)Phy_To_Virt(p->PHY_address) >> PAGE _ 1G SHIFT) & 
六) 

(tn: 和 Ss 0 ) 

{ 
unsigned long * Virtual = kmalloc (PAGE 4K_SIZE,0); 
set_pdpt (tmp,mk_pdpt (Virt_To_Phy (virtual),PAGE_ KERNEL Dir)); 

} 

tmp = (unsigned long *) ((unsigned long)Phy_To Virt(*tmp & (~ OxfffUL)) + 
(((unsigned long)Phy_To_Virt(p->PHY_address) >> PAGE 2M_ SHIFT) & 
OKTEEY, * 0) 


set_pdt (tmp,mk_pdt (p->PHY_address, PAGE_ KERNEL_ Page)); 
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二 (0 二 六 0) 
Color_printk (GREEN, BLACK, "@:%#0181x,%#0181lx\t\n", (unsigned 


long)tmp,*tmp); 


} 


flush_tlb() ; 

经 过 页 表 的 层 层 检 索 ， 滑 数 pagetable_init 最 终 借助 宏 set_pdt 将 目标 物理 页 的 基地 址 与 页 面 
属性 组 合成 页 表 项 ， 并 将 其 保存 到 目标 页 表 中 。 

至 此 ， 页 表 的 重新 初始 化 工作 宣告 结束 ， 为 了 验证 程序 运行 的 正确 性 ， 每 50 次 页 表 项 设置 抽查 一 
次 (打印 页 表 项 地 址 与 值 )。 在 函数 返回 前 ， 不 要 忘记 调用 flush_t1b 函 数 刷 新 页 表 ( 重新 加 载 CR3 


控制 寄存 器 )， 使 刚 配置 的 页 表 项 生效 。 
在 实现 pagetable_init 函 数 后 ,还 需 恢 复 init_memory 函 数 最 后 一 段 被 注释 掉 的 程序 。 这 段 程 
序 用 于 清除 线性 地 址 0 和 0oxffff800000000000 在 页 表 中 的 重 映 射 ， 详 细 代 码 如 代码 清单 9-35。 


代码 清单 9-35 ”第 9 章 \ 程 序 \ 程 序 9-3\ 物 理 平台 \kernel\memory.c 


void init_memory () 


for(i = 0;i < 10;i+t+) 
*(Phy_To_Virt (Global_CR3) + i) = 0UL; 
flush tlb(); 


} 
一 旦 处 理 器 执行 完 Elush_t1lb 函 数 ， 线 性 地 址 0 处 的 页 表 映 射 便 不 复 存 在 ， 此 后 内 核 程 序 只 存在 


于 线性 地 址 0xffff800000000000 处 。 
倘若 取消 线性 地 址 0 处 的 页 表 重 映射 ， 那 将 导致 task_init 函 数 无 法 正常 运行 。 而 且 ， 出 于 系统 
运行 的 安全 性 考虑 ， 在 页 表 重 新 初始 化 后 ， 初 始 页 表 的 用 户 访问 权限 必须 回收 ， 代 码 清单 9-36 是 修改 


后 的 初始 页 表 。 
代码 清单 9-36 ”第 9 章 \ 程 序 \ 程 序 9-3\ 物 理 平台 \kernel\head.S 


//======= init page 
.align 8 


十 


.Org 0x1000 

__ PML4E: 
.Guad 0x102003 
站 下 下 下 255,8,0 
.Guad 0x102003 
考生 王 于 255,8,0 

.Org 0x2000 


— POPbTE: 
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.quad Ox103003 /OXEOBOOB: EL 
:El SLE 2890 


.Org 0x3000 


PDE: 


.Guad 0x000083 
.Guad 0x200083 
.Guad 0x400083 
.Guad 0x600083 
.Guad 0x800083 /* .OQx800083. *7 
.Guad 0xa00083 
.Guad 0xc00083 
.Guad 0xe00083 
.Guad 0x1000083 
.Guad 0x1200083 
.Guad 0x1400083 
.Guad 0x1600083 
.Guad 0x1800083 
.Guad 0x1a00083 
.Guad 0x1c00083 
.Guad 0x1e00083 
.Guad 0x2000083 
.Guad 0x2200083 
.Guad 0x2400083 
.Guad 0x2600083 
.Guad 0x2800083 
.Guad 0x2a00083 
.Guad 0x2c00083 
.Guad 0x2e00083 


.Guad 0xe0000083 /*0x 3000000*/ 


.Guad 0xe0200083 
.Guad 0xe0400083 
.Guad 0xe0600083 
.Guad 0xe0800083 
.Guad 0xe0a00083 
.Guad 0xe0c00083 
.Guad 0xe0e00083 
Ei 480,8,0 


经 过 此 次 修改 ， 内 核 程序 将 在 处 理 器 中 以 最 高 权限 运行 ， 今 后 它 不 会 再 受到 应 用 层 的 越权 访问 。 


9.4.2 VBE 帧 缓存 区 地 址 重 映 射 


由 于 页 表 重 新 初始 化 过 程 覆 盖 了 VBE 帧 缓存 区 ， 导 致 pagetable_init 函 数 无 法 在 屏幕 上 显示 日 


志 信 息 ， 因 此 内 核 主 程序 在 调用 pagetable_init 函 数 前 必须 重新 映射 VBE 帧 缓存 区 。 


说 到 地 址 映射 ， 眼 下 最 紧迫 的 任务 是 为 VBE 帧 缓存 


区 寻找 一 块 合 适 的 线性 地 址 空间 。 考 虑 到 VBE 


帧 缓存 区 的 起 始 物理 地 址 位 于 0xe0000000 处 ， 其 对 应 的 线性 地 址 0xffff8000e0000000 恰 好 是 一 段 
内 存 空 洞 。 看 来 这 是 一 个 不 错 的 位 置 ， 我 们 使 用 代码 清单 9-37 可 将 VBE 帧 缓存 区 重新 映射 至 此 。 
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代码 清单 9-37 第 9 章 \ 程 序 \ 程 序 9-3\ 物 理 平台 \kernel\printk.c 


void frame buffer_init() 
{ 
////re init frame buffer; 
unsigned long i; 
unsigned long * tmp; 
unsigned long * tmpl; 
unsigned int * FB_addr = (unsigned int *)Phy_To_Virt(0xe0000000); 


Global_CR3 = Get_gdt (); 


tmp = Phy_To_Virt((unsigned long *) ((unsigned long)Global_CR3 & (~ 0xfffUL)) + 
(((unsigned long)FB_ addr >> PAGE_ GDT_ SHIFT) & Oxlff)); 

(En “= 0 

{ 
unsigned long * virtual = kmalloc (PAGE 4K_SIZE,0); 
set_mpl4t (tmp,mk_mpl4t (Virt_To_Phy (virtual),PAGE_ KERNEL_GDT)); 

} 

tmp = Phy_To_Virt((unsigned long *) (*tmp & (~ OxfffUL)) + (((unsigned 
long)FB_addr >> PAGE_1G_ SHIFT) & Oxlff)); 

if(*tmp == 0) 


{ 
unsigned long * virtual = kmalloc (PAGE 4K_SIZE,0); 
set_pdpt (tmp,mk_pdpt (Virt_To_Phy (virtual),PAGE_ KERNEL _ Dir)); 


for(i = 0;i < Pos.FB_length;i += PAGE 2M_ SIZE) 


tmp1 = Phy_To_Virt((unsigned long *) (*tmp & (~ 0xfffUL)) + (((unsigned 
long) ((unsigned long)FB_ addr + i) >> PAGE 2M_ SHIFT) & Oxlff)); 


unsigned long phy = 0xe0000000 + i; 
set_pdt (tmpl,mk_pdt (phy, PAGE_KERNEL_ Page | PAGE_PWT | PAGE_PCD)); 
} 


Pos.FB_addr = (unsigned int *)Phy_To_Virt(0xe0000000); 


flush tlb(); 
} 


此 段 代码 使 用 与 9.3.1 节 相同 的 知识 点 以 及 类 似 的 程序 执行 过 程 ， 所 以 无 需 过 多 歼 述 。 只 请 读者 注 
意 在 函数 返回 前 务必 调用 flush_tlb 函 数 刷新 页 表 ， 使 新 配置 的 页 表 项 生效 。 

接 下 来 ， 将 frame_buffer_init 函 数 和 pagetable_init 函 数 添加 到 内 核 主 程序 中 。 为 了 避免 在 
初始 化 过 程 中 出 现 错误 , 特 微调 各 初始 化 函数 的 执行 顺序 , 调整 后 的 函数 执行 顺序 如 代码 清单 9-38 所 示 。 


代码 清单 9-38 ”第 9 章 \ 程 序 \ 程 序 9-3\ 物 理 平台 \kernel\main.c 


void Start_Kernel (void) 


Color_printk (RED,BLACK, "memory init \n"); 
init_memory (); 
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Color printk (RED,BLACK, "slab init \n"); 


color_printk (RED,BLACK, "frame buffer init \n"); 
frame_buffer_init(); 

color_printk (WHITE,BLACK, "frame_ buffer_init() is OK \n"); 
color_printk (RED,BLACK, "pagetable init \n"); 
pagetable_init(); 


Color_printk (RED,BLACK, "interrupt init \n"); 
init_interrupt (); 


// color_printk (RED,BLACK, "task_init \n"); 
// task_init(); 


while(1) 


} 


通过 此 番 调 整 ， 我 们 可 避免 内 存 管理 单元 在 初始 化 过 程 中 受到 其 他 模块 的 干扰 。 同 时 也 为 了 使 


他 模块 尽早 使 用 到 内 存 空间 ， 调 整 后 的 运行 效果 请 参见 图 9-4。 


0000000009d! 


0000001ff00000 


图 9-4 ”页 表 初 始 化 和 帧 缓存 区 地 址 重 映射 效果 图 


几经 修改 与 创新 设计 ， 虽 然 高 级 内 存 管理 单元 已 络 经 实现 ， 但 它 与 不 足 之 处 。 
内 存 管理 单元 的 修改 和 完善 工作 仍 将 继续 ， 待 到 内 核 引入 合适 的 功能 了 予以 补充 、 升 级 和 完善 。 


高 级 中 断 处 理 单 元 


在 初级 篇 中 ， 我 们 已 经 实现 了 单 核 处 理 器 的 中 断 处 理 单元 ， 它 基于 8259A PIC 实现 ， 是 单 核 处 理 
占 时 代 的 典型 中 断 控制 器 芯片 。 由 于 8259A 芯 片 只 能 将 中 断 请 求 信号 投递 给 一 个 指定 的 处 理 器 ， 所 以 
当 多 核 处 理 器 问世 后 ， 如 果 依 然 沿 用 此 类 芯片 ， 则 在 爆发 大 量 中 断 请 求 时 ， 此 类 芯片 势必 会 影响 处 理 
器 对 它们 的 响应 速度 。 

为 了 加 快 中 断 请 求 的 处 理 速度 ，APIC 便 应 运 而 生 。 本 章 将 会 基于 APIC 实 现 中 断 处 理 单元 。 


10.1 APIC 概述 


APIC 据 弃 了 单 核 处 理 器 的 INTR 中 断 请 求 引 脚 ， 而 采用 总 线 方式 通信 。 使 用 总 线 通信 方式 的 
APIC 将 原本 单个 中 断 控制 器 拆 解 为 两 部 分 ,它们 分 别 是 位 于 处 理 器 内 的 Local APIC 和 位 于 主板 芯片 
组 中 的 IO APIC。 这 两 部 分 控制 器 通过 总 线 相 连 并 在 其 上 通信 , 图 10-1 示 意 了 Local APIC 与 IO APIC 
的 结构 关系 。 


芯片 组 
桥 控制 器 
Wo PCI 
LO APIC 虑 一 二 外 部 中 断 
中 醋 薄 目 | Intel Xeon 处 理 器 
| |" Hai l" | IPI ai 人 |" 


将 


CPU #1 CPU #2 CPU #3 CPU #4 
Local APIC Local APIC Local APIC Local APIC 


本 
| 区 HP 人 区 中 断 消息 | PL 中 晰 消息 | jp 


< 


二 


下 “APIC 总 线 PE6 处 理 器 家 族 
中 断 消 肯 


外 部 中 断 vo APIC 
芯片 组 
图 10-1 Local APIC 与 IJO APIC 的 结构 关系 示意 图 
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根据 图 10-1 描 述 的 结构 关系 可 以 看 出 ， 不 论 是 Pentium 4 处 理 器 家 族 ， 还 是 P6 处 理 器 家 族 ， 甚 至 是 


Xeon 人 处理 器 家 族 ， 


在 处 理 器 的 每 个 核心 中 都 包含 一 个 Local APIC 控 制 器 ， 而 在 芯片 组 (位 于 主板 上 ) 


中 通常 只 有 一 个 IO APIC ( 高 级 平台 可 能 包含 多 个 IO APIC )。 以 下 内 容 是 这 两 类 控制 器 的 功能 描述 。 
口 Local APIC。 它 既 可 接收 来 自 处 理 吉 核心 的 中 断 请 求 ， 亦 可 接收 内 部 中 断 源 和 外 部 IO APIC 
的 中 断 请 求 。 随 后 ， 再 将 这 些 请 求 发 送 至 处 理 需 核心 中 进行 处 理 。 


Local APIC 


还 可 通过 总 线 实 现 双向 收发 ITPI ( Inter-Processor Interrupt， 处 理 器 间 中 断 ) 消息 ，IPI 


消息 可 收发 自 目 标 处 理 如 的 逻辑 核心 。IPI 消 息 主要 应 用 于 多 核 处 理 带 环境 下 ， 通 过 它 可 实现 
各 处 理 咒 核心 间 的 通信 ， 这 也 是 多 核 处 理 器 之 间 使 用 的 主要 通信 手段 。 


DQ VO APIC 。 


外 部 IO APIC 是 主板 芯片 组 的 一 部 分 。 它 主要 负责 接收 外 部 IO 设备 发 送 来 的 中 晰 


请 求 ， 并 将 这 些 中 断 请 求 封装 成 中 断 消息 投递 至 目标 Local APIC。 


在 多 核 处 理 噩 


环境 下 ，LIO APIC 能 够 提供 一 种 机 制 来 分 发 外 部 中 断 请 求 ( 中 断 消息 ) 至 目标 处 理 


髓 的 Local APIC 控 制 希 中 ， 或 者 分 发 到 系统 总 线 上 的 处 理事 组 中 。 


10.2 Local 


在 处 理 器 的 每 
可 接收 其 他 处 理 器 
Local APIC 的 


APIC 


个 核心 中 ， 都 拥有 一 个 Local APIC， 它 不 但 可 接收 WO APIC 发 送 来 的 中 断 请 求 ， 还 
核心 发 送 来 的 IPI 中 断 请 求 ， 甚 至 可 以 向 其 他 处 理 器 核心 发 送 IPI 中 断 请 求 。 
功能 比 8259A PIC 强 大 许多 。 随 之 而 来 ， 其 整体 结构 也 变 得 非常 复杂 ， 这 使 得 每 个 


Local APIC 都 由 一 组 数量 庞大 的 APIC 寄 存 器 组 成 。 同 时 ， 当 处 理 需 经 历数 代 升 级 后 ，APIC 的 功能 和 版 


本 也 相继 进行 了 扩 
本 章 将 主要 以 
们 将 在 第 12 章 中 详 


10.2.1 Local 


Local APIC 采 


行 速度 会 比 IO 端 口 访问 方式 (用 于 8259A 控 制 器 ) 更 快 。 在 高 级 版 的 Local APIC 中 ， 处 理 需 还 允许 直 


展 和 升级 。 
Local APIC 和 IO APIC 间 的 中 断 投 递 为 主 ， 而 关于 多 核 处 理 器 间 的 IPI 通 信 功 能 ,我 
细 讲 解 。 


APIC 的 基础 信息 
用 内 存 访问 方式 (将 寄存 器 映射 到 物理 地 址 空间 ) 操作 寄存 器 ， 此 种 访问 方式 的 执 


接 访 问 寄 存 咒 ， 此 举 不 但 简化 了 寄存 器 访 问 过 程 ， 还 进一步 缩短 访问 时 间 。 这 对 于 实时 性 要 求 非常 高 


的 设备 来 说 ,中断 
下 面 将 对 Loca 
获取 和 设置 予以 讲 


应 答 或 中 断 处 理 的 速度 越 得， 系统 的 实时 性 指标 越 高 。 
1 APIC 寄 存 器 的 访问 方式 、 寄 存 器 映射 的 地 址 空间 、 控 制 需 版 本 ID 号 等 基础 信息 的 
解 。 


1. Local APIC 版 本 寡 存 器 
在 每 个 Local APIC 的 寄存 器 组 中 都 含有 一 个 版 本 寄存 器 。 软 件 通过 读 取 该 寄存 需 来 辨别 Local 
APIC 的 版 本 。 另 外 ， 此 寄存 器 还 指定 了 本 地 LVT 的 表 项 数量 ， 其 寄存 器 各 位 的 功能 说 明 请 见 图 10-2。 
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31 2524 23 16 15 87 


LVT 表 项 数 


禁止 广播 EOI 消 息 标 志 位 


物理 地 址 : FEE0 0030h 
图 10-2 ”Local APIC 版 本 寄存 器 的 位 功能 说 明 图 


表 10-1 记 录 着 Local APIC 版 本 寄存 器 各 位 的 功能 。 
表 10-1 Local APIC 版 本 寄存 器 的 位 功能 说 明 表 


在 图 10-2 中 ,不 但 记录 了 控制 器 的 版 本 号 、LVT 表 项 数 ， 还 有 EOI 消 息 的 禁止 广播 功能 标志 位 。 


名 称 位 置 功能 描述 
版 本 ID 7:0 代表 Local APIC 的 版 本 ID 
LVT 表 项 数 23:16 此 数值 加 1 代表 处 理 器 支持 的 LVT 表 项 数 
禁止 广播 EOI 消 息 标志 位 24 指示 Local APIC 是 否 支 持 禁 止 广播 EOI 消 息 功能 


Local APIC 大 体 可 分 为 内 置 和 外 置 两 个 版 本 ， 可 通过 版 本 ID 加 以 区 分 ， 表 10-2 描 述 了 详细 的 版 本 


ID。 如 果 Local APIC 支 持 EOI 消 息 的 禁止 广播 功能 ， 那 么 通过 SVR 寄 存 器 的 相关 位 可 控制 EOI 消 


息 禁 止 


广播 功能 的 开启 与 关闭 。 


表 10-2 Local APIC 版 本 ID 对 照 表 


版 本 ID 版 本 
Oxh 82489DX ( 外 部 APIC 世 片 ) 
lxh Integrated APIC ( 内 部 APIC 世 片 ) 


注 : x 是 一 个 4 位 的 十 六 进 制 数 。 


对 于 早期 的 Pentium 和 P6 家 族 的 处 理 器 来 说 ，Local APIC 只 是 Intel 82489DX 世 片 的 一 个 子 功 能 。 而 
Pentium 4 和 Xeon 人 处 理 右 在 P6 家 族 处 理 右 的 基础 上 进行 了 扩展 ， 并 将 Local APIC 集 成 到 了 处 理 需 中 , 通 
常 称 之 为 XZAPIC 控 制 絮 。xAPIC 控 制 咒 与 APIC 控 制 器 的 最 大 不 同 在 于 它们 使 用 不 同 的 总 线 和 1/O APIC 


通信 。 另 外 ，APIC 架 构 里 的 一 些 特性 在 xAPIC 中 得 到 了 扩展 和 修改 。 


在 xAPIC 中 ， 基础 操作 模式 为 x<APIC 模 式 。 高 级 的 x2APIC 模 式 在 xAPIC 模 式 的 基础 上 进一步 扩展 ， 


其 引入 了 处 理 器 对 Local APIC 寄 存 器 的 寻 址 功能 ， 即 将 Local APIC 的 寄存 器 地 址 映射 到 MSR 寄 存 器 组 


中 ， 从 而 可 直接 使 用 RDMSR 和 WRMSR 指 令 来 访问 Local APIC 寄 存 器 。 可 以 说 ，x2APIC 不 仅 扩 
兼容 xAPIC 架 构 的 能 力 ， 还 具备 对 Intel 后 续 平 台 的 创新 扩展 能 力 。 
2. IA32_APIC_BASE 寄 存 器 


有 问 前 


MSR 寄 存 器 组 包含 着 一 个 名 为 I A32_APIC BASE 的 寄存 器 ， 它 用 于 配置 Local APIC 寄 存 器 组 的 物 
理 基地 址 和 Local APIC 使 能 状态 。 图 10-3 描 述 了 APIC 与 xAPIC 的 IA32_APIC_BASE 寄 存 器 位 功能 。 
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03 


XPHYADDR 12 11 10 
APIC 寄 存 器 组 的 物理 基地 址 


项 保 名 APIC 的 全 局 使 能 标志 位 


图 10-3 IA32_APIC_BASE 寄 存 器 的 位 说 明 贺 (APIC & xAPIC ) 


表 10-3 描 述 了 IA32_APIC_BASE 寄 存 器 各 位 的 功能 说 明 ， 其 中 的 MAXPHYADDR 是 处 理 器 的 最 高 
物理 可 寻 址 位 宽 值 。 


表 10-3 IA32_APIC_BASE 寄 存 器 的 位 功能 说 明 表 


Gs Eo 功能 描述 
人 8 指示 当前 处 理 器 为 引导 处 理 器 
xAPIC 全 局 使 能 标志 位 11 控制 APIC 和 xAPIC 模 式 的 开启 与 关闭 
Sh ve a, Ns 用 于 配置 APIC 寄 存 器 的 物理 基地 址 


注 : M 是 MAXPHYADDR 的 缩写 。 


当 硬件 上 电 或 重启 后 ， 硬 件 平 台 会 自动 选择 一 个 处 理 器 作为 引导 处 理 器 ， 并 置 位 IA32_ 
APIC_BASE 寄 存 器 的 BSP 标志 位 ， 而 未 置 位 处 理 器 将 作为 应 用 处 理 器 使 用 。xAPIC 全 局 使 能 标志 位 可 
用 于 控制 APIC 和 xAPIC 模 式 的 开启 与 关闭 ， 置 位 表示 开启 ， 复 位 表示 关闭 。APIC 寄 存 器 组 的 物理 基地 
址 区 域 用 于 为 处 理 器 提供 访问 APIC 寄 存 器 组 的 起 始 物理 地 址 ( 按 4KB 边 界 对 齐 )，MAXPHYADDR 的 
可 选 值 有 36/40/52， 在 系统 上 电 或 重启 后 ，APIC 寄 存 器 组 的 默认 物理 基地 址 为 FEE00000h。 

当 CPUID.01h:ECX[21]=1 时 ,说 明 处 理 器 支持 x2APIC 模 式 。 对 于 支持 x2APIC 模 式 的 处 理 器 
来 说 ， 其 IA32_APIC_BASE 寄 存 器 新 增 了 x2APIC 模 式 的 使 能 标志 位 ， 图 10-4 是 其 各 寄存 器 位 的 功能 


03 MAXPHYADDR 12 11 10 9 


APIC 寄 存 器 组 的 物理 基地 址 


APIC 全 局 使 能 标志 位 | 


x2APIC 使 能 标志 位 
图 10-4 JIA32_ APIC_BASE 寄 存 器 的 位 说 明 图 ( x2APIC ) 


图 10-4 在 图 10-3 的 基础 上 把 IA32_ APIC_BASE 寄 存 器 的 第 10 位 定义 为 x2APIC 模 式 的 使 能 标志 位 
(EXTD )， 置 位 表示 开启 x2APIC 功 能 ， 复 位 表示 关闭 x2APIC 功 能 。 

@ Local APIC 控 制 器 各 模式 的 使 能 

XxAPIC 模 式 和 x2APIC 模 式 的 使 能 状态 由 IA32_APIC_BASE[10] 位 和 IA32_APIC_BASE[11] 位 组 合 
控制 ， 各 个 模式 的 使 能 状态 如 表 10-4 所 示 。 
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表 10-4 Local APIC 的 模式 使 能 对 照 表 
xAPIC Global Enable X2APICEnable 


〈IA32_APIC_BASEI11]) (IA32_APIC_BASE[10]) 描述 
0 禁止 Local APIC 
9 1 无 效 
0 使 能 xAPIC 模 式 
: | 使 能 X2APIC 模 式 
在 确定 Local APIC 使 用 的 模式 后 ， 还 要 置 位 伪 中 断 向 量 寄存 器 SVR 的 第 8 位 才 算 完全 开启 Local 


APIC 控 制 器 。 

@ Local APIC 寄 存 器 组 的 地 址 映射 

对 于 x2APIC 模 式 而 言 ， 它 不 但 支持 APIC 和 xAPIC 模 式 的 内 存 访问 方式 ， 还 支持 MSR 寄 存 器 访问 
方式 。 因 此 ，Local APIC 寄 存 器 组 将 会 存在 两 种 访问 方式 ， 表 10-5 已 汇总 出 这 两 种 访问 方式 的 寄存 器 
地 址 映射 。 


表 10-5 ”Local APIC 寡 存 器 地 址 映射 表 


物理 地 址 MSR 地 址 寄存 器 名 读 写 权限 
FEE0 0000h 无 保留 N/A 
FEE0 0010h 无 保留 N/A 
FEE0 0020h 802h Local APIC ID 寄存 器 读 写 
FEE0 0030h 803h Local APIC 版 本 寄存 器 只 读 
FEE0 0040h 无 保留 N/A 
FEE0 0050h 无 保留 N/A 
FEE0 0060h 无 保留 N/A 
FEE0 0070h 无 保留 N/A 
FEE0 0080h 808h 任务 优先 级 寄存 器 TPR 读 写 
FEE0 0090h 无 优先 级 仲裁 寄存 器 APR. 只 读 
FEE0 00AOh 80Ah 处 理 器 优先 级 寄存 器 PPR 只 读 
FEE0 00BOh 80Bh EOI 寄 存 器 只 写 
FEE0 00COh 无 远程 读 取 寄 存 器 RRD 只 读 
FEE0 00DOh 80Dh 逻辑 目标 寄存 器 LDR 读 写 
FEE0 00E0h 无 目标 格式 寄存 器 DFR 读 写 
FEE0 00FOh 80Fh 伪 中 断 向 量 寄存 器 SVR 读 写 
FEE0 0100h 810h ISR 寄 存 器 (bit 31:0 ) 只 读 
FEE0 0110h 811h ISR 寄 存 器 (bit 63:32 ) 只 读 
FEE0 0120h 812h ISR 寄 存 器 ( bit 95:64 ) 只 读 
FEE0 0130h 813h ISR 寄 存 器 ( bit 127:96 ) 只 读 
FEE0 0140h 814h ISR 寄 存 器 (bit 159:128 ) 只 读 
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( 续 ) 

物理 地 址 MSR 地 址 寄存 器 名 读 写 权限 
FEE0 0150h 815h ISR 寄 存 器 ( bit 191:160 ) 只 读 
FEE0 0160h 816h ISR 寄 存 器 (bit 223:192 ) 只 读 
FEE0 0170h 817h ISR 寄 存 器 (bit 255:224 ) 只 读 
FEE0 0180h 818h TMR 寄 存 器 (bit31:0 ) 只 读 
FEE0 0190h 819h TMR 寄 存 器 (bit 63:32 ) 只 读 
FEE0 01AOh 81Ah TMR 寄 存 器 ( bit 95:64 ) 只 读 
FEE0 01BOh 81Bh TMR 寄 存 器 〈bit 127:96 ) 只 读 
FEE0 01COh 81Ch TMR 寄 存 器 (bit 159:128 ) 只 读 
FEE0 01DOh 81Dh TMR 寄 存 器 (bit 191:160 ) 只 读 
FEE0 01EOh 81Eh TMR 寄 存 器 (bit 223:192 ) 只 读 
FEE0 01FOh 81Fh TMR 寄 存 器 ( bit 255:224 ) 只 读 
FEE0 0200h 820h IRR 寄 存 器 (bit 31:0 ) 只 读 
FEE0 0210h 821h IRR 寄 存 器 ( bit 63:32 ) 只 读 
FEE0 0220h 822h IRR 寄 存 器 (bit 95:64 ) 只 读 
FEE0 0230h 823h IRR 寄 存 器 (bit 127:96 ) 只 读 
FEE0 0240h 824h IRR 寄 存 器 (bit 159:128 ) 只 读 
FEE0 0250h 825h IRR 寄 存 器 (bit 191:160 ) 只 读 
FEE0 0260h 826h IRR 寄 存 器 (bit 223:192 ) 只 读 
FEE0 0270h 827h IRR 寄 存 器 (bit 255:224 ) 只 读 
FEE0 0280h 828h ESR ( 错误 状态 寄存 器 ) 只 读 
FEE0 0290h ~ FEE0 02EOh 无 保留 N/A 
FEEO 02F0h 82Fh LVT CMCI 寄 存 器 读 写 
FEE0 0300h 830h 中 断 命 令 寄存 器 ICR (bit 31:0 ) 读 写 
FEE0 0310h 830h 中 断 命令 寄存 器 ICR (bit 63:32 ) 读 写 
FEE0 0320h 832h LVT 定 时 器 寄存 器 读 写 
FEE0 0330h 833h LVT 温 度 传感器 寄存 器 读 写 
FEE0 0340h 834h LVT 性 能 监控 计数 寄存 咒 读 写 
FEE0 0350h 835h LVT LINT0 寄 存 器 读 写 
FEE0 0360h 836h LVTILINTI1 寄 存 器 读 写 
FEE0 0370h 837h LVT 错 误 寄 存 品 读 写 
FEE0 0380h 838h 初始 计数 寄存 器 〈 定时 器 专用 ) 读 写 
FEE0 0390h 839h 当前 计数 寄存 器 〈 定时 器 专用 ) 只 读 
FEE0 03AOh ~ FEE0 03DOh 无 保留 N/A 
FEE0 03EOh 83Eh 分 频 配置 寄存 器 ( 定时 器 专用 ) 读 写 
N/A 83Fh SELF IPI 寄 存 器 


注 : SELF IPI 寄 存 器 只 在 x2APIC 模 式 下 可 用 。 
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表 10-5 使 用 默认 物理 地 址 来 描述 内 存 访问 方式 的 地 址 映射 ， 而 MSR 寄 存 器 访问 方式 的 地 址 映射 是 
固定 的 不 可 调整 。 

3. Local APIC ID 寄存 器 

当 物 理 平台 上 电 后 , 硬件 设备 会 为 系统 总 线 上 的 每 一 个 Local APIC 分 配 唯一 的 初始 APIC ID 值 ， 并 
将 其 保存 在 APIC ID 寄存 器 内 。 硬 件 指 派 初始 APIC ID 值 的 原则 是 基于 系统 拓扑 结构 ( 包括 封装 位 置 和 
簇 信 息 ) 构建 的 ， 通 过 cPUID.01h:EBX[31:24] 可 获得 这 个 8 位 的 初始 APIC ID 值 。 

在 多 核 处 理 器 系统 中 ，BIOS 和 操作 系统 会 将 Local APIC ID 值 作 为 处 理 器 核心 的 ID 号 。 某 些 处 理 
器 甚至 允许 软件 修改 Local APIC ID 值 。 各 版 本 Local APIC 的 Local APIC ID 寄存 器 位 功能 各 不 相同 ， 图 
10-5 描 绘 了 各 版 本 Local APIC 的 Local APIC ID 寄存 器 位 功能 。 


物理 地 址 : FEE0 0020h 


P6 家 族 和 Penti um 处理 器 
| APIC ID 保留 
Pentium 4、Xeon 以 及 后 续 处 理 器 
并 24 
APIC ID | 保留 
31 


x2APIC ID 


MSR 地 址 : 802h 
上 | 保留 


图 10-5 Local APIC ID 寄存 器 的 位 功能 说 明 网 


对 于 早期 的 Pentium 和 P6 家 族 的 处 理 器 ，Local APIC ID 值 只 有 4 位 宽 。 而 Pentium 4 和 Xeon 处 理 器 在 
P6 家 族 处 理 器 的 基础 上 将 Local APIC ID 值 扩展 为 8 位 。 当 升级 到 x2APIC 版 本 后 ，Local APIC ID 值 进 一 
步 扩 展 至 32 位 。 

我 们 借助 cPUID.01n:ECX[21] 可 检测 出 32/64 位 处 理 器 是 否 支持 x2APIC 模 式 , 置 位 时 表示 人 处理 器 
支持 x2APIC 模 式 。 此 时 ， 如 果 CPUID 支 持 0Bh 功 能 ， 那 么 处 理 器 通过 cPUID.0Bh:EDX 可 获取 32 位 的 
x2APIC ID 值 ， 此 值 与 MSR 寄 存 器 组 802H 地 址 处 的 x2APIC ID 值 相同 。 

在 xAPIC 和 x2APIC 模 式 下 ，cPUID.0Bh:EDX 返 回 的 是 一 个 32 位 的 Local APIC ID 值 。 对 于 不 支持 
x2APIC 模 式 的 硬件 平台 ，cPUID.0Bh:EDX 返 回 的 32 位 数值 仅 低 8 位 有 效 。 在 通常 情况 下 ， 
CPUID.0BH:EDX[7:0] 的 数值 与 初始 APIC ID 值 相等 。 关 于 Local APIC ID 值 与 初始 APIC ID 值 ， 还 有 很 
重要 的 用 途 ， 更 多 细节 将 在 第 12 章 中 予以 讲解 。 
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10.2.2 Local APIC 整体 结构 及 各 功能 描述 


本 节 开 篇 已 经 提 及 了 每 个 Local APIC 都 | 


组 数量 庞大 的 APIC 寄 存 器 组 成 ， 这 些 寄存 器 各 司 其 


职 ， 组 成 了 诸多 功能 强大 的 模块 。Intel 官 方 白皮书 已 按照 各 模块 的 功能 绘制 出 了 Local APIC 的 功能 结 
构 ， 详 细 的 Local APIC 功 能 结构 请 参见 图 10-6。 


数据 & 地 址 总 线 
本 
Local APIC 版 本 寄存 器 > 一 站。 EOL 霖 存 器 
定时 吕 ime -一 一 一 >| 任 务 优先 级 寄存 器 TPR 
当前 计数 寄存 器 
\ 理 明仁 级 安 De 
初始 计数 寄存 器 | INTA_ 接 收 自 CPU 核心 
INTR 
分 频 配置 寄存 器 优先 级 排序 发送 至 CPU 核 必 
本 地 中 断 向 量 表 LVT r - 
HE | | 
定时 器 寄存 器 | 1SR 寄 存 器 
LINTO0/1 一 > 地 中 断 寄 存 器 [< 一 | 区 | 
本 地 中 断 寄 存 器 
性 能 监控 (内 部 中 断 ) 一 ”| 性 能 监控 计数 寄存 器 | TMR 寄 存 器 | 
温度 传感器 (内 部 中 断 ) 一 站 温度 传感器 寄存 器 eol ei Gi 和 
一 > ”错误 寄存 器 一 
ID 仲裁 寄存 器 向 量 解析 器 
莉 误 状态 寄存 器 ESR 站 内 部 中 断 源 一 中断 响应 逻辑 单元 
人 目标 模式 & 中 断 向 量 号 
APIC ID 寄存 器 传输 协议 逻辑 单元 [> 发 送 至 CPU 核心 
逻辑 目标 寄存 器 LDR 一 一 > | NMI 
SMI 
标 格式 寄存 器 DFR < 中 断 命 令 寄存 器 ICR 
伪 中 断 向 量 寄存 器 SVR 
处 理 器 总 线 
vv 


我 们 可 从 图 10-6 总 结 出 Local APIC 


源 的 功能 。 


当 Local APIC 接 收 到 上 述 中 断 源 信 
足 要 求 的 中 断 请 求 发 送 至 处 型 


图 10-6 Local APIC 的 功能 结构 图 


能 够 接收 7 种 中 断 源 产生 的 


FP 断 请 求 ， 表 10-6 已 归纳 出 这 些 中 断 


号 后 ， 它 会 按照 APIC 寄 存 带 组 的 设置 解析 中 断 源 信号 ， 再 将 满 
E 帮 核心 进行 处 理 。 
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表 10-6 Local APIC 的 中 断 源 种 类 归纳 表 


中 断 源 功能 描述 

内 部 IO 设备 LO 设备 将 边沿 或 电 平 中 断 信 号 直接 发 往 处 理 器 中 断 引 脚 (LINT0 和 LINT1 ) 。LIO 设 备 亦 可 先 连 
接 至 类 8259A 中 断 控制 器 ， 再 由 类 8259A 中 断 控制 器 将 中 断 请 求 转送 至 处 理 器 的 中 断 引 脚 

外 部 IO 设备 IO 设备 将 边沿 或 电 平 中 断 信号 直接 发 往 IO APIC 的 输入 引 脚 。IO APIC 把 中 断 请 求 封装 成 中 断 
消息 ， 再 将 其 投递 到 系统 的 一 个 或 多 个 处 理 器 核心 

IPI 消 息 Intel 32/64 位 处 理 器 可 通过 IPI 机 制 中 断 总 线 上 的 其 他 处 理 器 或 处 理 器 组 。 软 件 可 借助 IPI 消 息 中 
断 自身 、 ed 

定时 右 中 断 在 定时 器 达到 预定 时 间 后 ， 其 会 向 Local APIC 发 送 一 个 中 断 请 求 信号 ， 随 后 再 由 Local APIC 将 
中 断 请 求 转送 至 处 理 需 

性 能 监控 中 断 当 P6、Pentium 4 和 Xeon 处 理 吉 在 性 能 监测 计数 器 溢出 后 ， 其 会 向 Local APIC 发 送 一 个 中 断 请 求 


信号 ， 随 后 再 由 Local APIC 将 中 断 请 求 转送 至 处 理 吕 
温度 传感器 中 断 ”在 Pentium 4 和 Xeon 处 理 器 的 内 部 温度 传感器 达到 阔 值 后 ， 它 会 向 Local APIC 发 送 一 个 中 断 请 求 
信号 ， 随 后 再 由 Local APIC 将 中 断 请 求 转送 至 处 理 器 
内 部 错误 中 断 在 Local APIC 监 测 到 运行 错误 时 ， 它 会 向 Local APIC 发 送 一 个 中 断 请 求 信号 ， 随 后 再 由 Local 
APIC 将 中 断 请 求 转送 至 处 理 器 


1. LVT 
LVT (Local Vector Table， 本 地 中 断 向 量 表 ) 的 用 途 与 8259A 芯 片 的 中 断 号 相似 ， 只 不 过 8259A 接 收 
的 是 外 部 IO 设备 发 送 来 的 中 断 请 求 ， 而 LVT 接 收 的 则 是 处 理 器 内 部 产生 的 中 断 请 求 。 高 级 中 断 控制 器 会 
对 中 断 源 产生 的 中 断 请 求 进行 详细 配置 ， 比 如 自 定义 中 断 向 量 号 、 中 断 投 递 方式 、 中 断 触 发 方式 以 及 中 


断 触 发 电 平等 信息 , 这 些 配置 项 可 使 中 断 处 理 过 程 更 加 灵活 。 图 10-7 描 绘 了 各 LVT 表 项 寄存 器 的 位 功能 。 


31 19 18 17 16 15 E3111 7 0 


定时 器 寄存 器 


定时 模式 (Timer Mode) 

oF -次 恒定 由 (One-shot) 
骨 其 性 定时 (Periodic) 

和 名 时 (TSC-Deadline) 


昌平 触发 极 性 (Interrupt Input Pin Polarity) 


屏蔽 标志 位 (Mask) - 
六 散 (Maske 、 
已 内 族 (Masked) 短发 模仿 (Trigger Mode) 人 小 
中 
0: 边 消 触发 (Edse) 
111: ExtINT 
寺 电 下 触发 (Level) 101: INIT 


CMCI 和 寄存器 
LINT0 寄 存 器 
LINT1 寄 存 器 

错误 寄存 器 

性 能 监控 计数 寄存 器 
温度 传感器 寄存 器 


地 | 池 | 节 | 地 | 地 | 邮 


16 "5. 14. -143712 


已  ] 保留 
图 10-7 LVT 各 寄存 器 的 位 功能 说 明 图 
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中 断 请 求 事件 的 功能 。 
表 10-7 LVT 各 寄存 器 的 功能 说 明 表 


图 10-7 是 LVT 的 所 有 中 断 请 求 寄存 右 ， 每 个 寄存 絮 对 应 着 一 类 中 断 请 求 事件 ， 表 10-7 已 罗列 出 各 


寄存 器 名 物理 地 址 功能 描述 

CMCI 寄 存 器 FEE0 02FOh 如 果 支 持 CMCI 功 能 ， 当 修正 的 机 器 错误 超过 阔 值 时 ，Local APIC 
通过 CMCI 寄 存 器 的 配置 向 处 理 器 核心 投递 中 断 消息 

定时 器 寄存 器 FEE0 0320h 当 APIC 定 时 器 产生 中 断 请 求 信 号 时 , Local APIC 通 过 定时 器 寄存 器 
的 设置 向 处 理 器 投递 中 断 消息 

温度 传感器 寄存 器 FEE0 0330h 当 处 理 器 的 内 部 温度 传感器 产生 中 断 请 求 信 号 时 ，Local APIC 会 通 
过 温度 传感器 寄存 器 的 设置 向 处 理 器 投递 中 断 消息 

性 能 监控 计数 器 寄存 器 FEE0 0340h 当 性 能 监测 计数 器 溢出 产生 中 断 请 求 信 号 时 ，Local APIC 会 通过 性 
能 监控 计数 器 寄存 器 的 设置 向 处 理 器 投递 中 断 消息 

LINT0 寄 存 器 FEE0 0350h 当 处 理 器 的 LINT0 引 脚 接 收 到 中 断 请 求 信 号 时 ，Local APIC 会 通过 
LINT0 寄 存 器 的 设置 向 处 理 需 投递 中 断 消 息 

LINT1 寄 存 器 FEE0 0360h 当 处 理 器 的 LINT1 引 脚 接 收 到 中 断 请 求 信号 时 ，Local APIC 会 通过 
LINTI1 寄 存 器 的 设置 向 处 理 需 投递 中 断 消 息 

错误 寄存 器 FEE0 0370h 当 APIC 检 测 到 内 部 错误 而 产生 中 断 请 求 信 号 时 ， 它 会 通过 错误 寄 
存 器 的 设置 向 处 理 器 投递 中 断 消息 


注 : 各 寄存 器 的 初始 值 均 为 0001 0000h。 
表 10-8 汇 总 了 图 10-7 描 述 的 LVT 各 寄存 器 位 功能 。 根 据 这 些 寄存 器 位 的 功能 
的 中 断 消息 。 


表 10-8 LVT 各 寄存 器 位 的 功能 说 明 表 
寄存 器 位 域 位 置 功能 描述 


前述 便 可 配置 出 期 望 


中 断 向 量 号 0~7 指定 处 理 中 断 请 求 的 中 断 向 量 号 
投递 模式 8~10 ”指定 发 送 中 断 请 求 时 使 用 的 投递 模式 ， 某 些 投递 模式 必须 结合 固定 的 触发 模式 才 会 有 效 
投递 状态 12 指示 当前 中 断 投递 的 状态 
电 平 触发 极 性 13 设置 中 断 输入 引 脚 在 电 平 触发 模式 ( Level ) 下 的 触发 极 性 ，0 为 高 电 平 触发 ，! 为 低 电 平 
触发 
远程 IRR 标 志 位 14 只 有 在 Fixed 投 递 模式 的 电 平 触发 模式 下 有 效 。 在 Local APIC 处 理 中 断 请 求 时 置 位 ， 在 收 


到 处 理 器 发 来 的 EOI 命 令 时 复位 


触发 模式 15 用 于 设置 LINT0 和 LINTI1 引 脚 的 触发 模式 ，0 为 边沿 触发 模式 〈Edge ) ，1 为 电 平 触发 模 
式 (Level ) 

屏蔽 标志 位 16 中 断 屏 蔽 标志 位 ，0 表 示 中 断 已 屏蔽 ，1 表 示 中 断 未 屏蔽 

定时 模式 17~18 “用 于 设置 定时 器 /计数 需 模 式 


值得 注意 的 是 ， 在 Local APIC 处 理性 能 监控 计数 器 的 中 断 请 求 时 ，Local APIC 会 自动 置 位 性 能 监 


探 计数 器 寄存 器 的 屏蔽 标志 位 。 


从 图 10-7 可 以 看 出 投递 模式 有 多 种 ， 表 10-9 详 细 介 绍 了 Local APIC 支 持 的 投递 模式 。 在 APIC 体 系 
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结构 中 ， 只 允许 有 一 个 ExtINT 投 递 模式 的 信号 源 存 在 ， 也 就 是 说 整个 系统 只 能 有 一 个 处 理 器 核心 使 用 
类 8259A 中 断 控 制 器 ， 通 常情 况 下 此 模式 还 需要 兼容 型 桥 芯 片 的 支持 。 
表 10-9 Local APIC 的 投递 模式 说 明 表 
位 值 ”模式 名 功能 描述 
000 Fixed LVT 寄 存 器 的 向 量 号 区 域 指 定 中 断 向 量 号 
010 SMI 通过 处 理 器 的 SMI 信 和 号 线 向 处 理 器 投递 SMI 中 断 请 求 。 为 了 兼容 性 考虑 ， 使 用 此 投递 模式 时 ， 向 
量 号 区 域 必须 设置 为 0 
100 ”NMI 向 处 理 器 投递 NMI 中 断 请 求 ， 并 忽略 向 量 号 区 域 
101 INIT 在 向 处 理 器 投递 INIT 中 断 请 求 时 ， 处 理 品 se 为 了 兼容 性 考虑 ， 使 用 此 投递 模 
式 时 ， 向 量 号 区 域 必须 设置 为 0。CMCI、 温 度 传感器 、 性 能 监控 计数 器 等 寄存 器 均 不 支持 INIT 投 
递 模式 
111 ExtINT 人 求 投递 至 处 理 器 ， 并 接收 类 8259A 中 断 控制 器 
提供 的 中 断 向 量 号 。CMCI、 温 度 传感器 、 性 能 监控 计数 器 等 寄存 器 均 不 支持 ExtINT 投 递 模 式 
注 : 其 他 位 置 保留 使 用 。 
投递 状态 是 一 个 只 读 标志 位 ， 表 10-10 记 录 着 该 只 读 标 志 位 可 捕获 的 中 断 投 递 状态 。 
表 10-10 ”投递 状态 表 
位 值 状态 名 功能 描述 
0 空闲 (Idle ) 此 状态 表示 目前 中 断 源 未 产生 中 断 , 或 者 中 断 源 产生 的 中 断 请 求 已 投递 至 处 理 器 
并 被 处 理 个 受理 
1 发 送 挂 起 ( Send Pending ) ”此 状态 表示 中 断 源 产生 的 中 断 请 求 已 投递 至 处 理 器 ， 但 尚未 被 处 理 器 受理 


触发 模式 只 


1 在 Fixed 投 递 模式 下 有 效 ; NMI、SMI 或 INIT 等 投递 模式 始终 采用 边 


投递 模式 使 用 


果 Local APIC 控 制 器 没有 结合 IO APIC 控 制 器 使 用 ， 


怨 平 触发 模式 。 而 LVT 定 时 器 寄存 器 和 错误 寄存 器 的 中 断 源 始 终 使 


P6 家 族 的 处 理 器 将 始终 采用 电 : 
LINT1 寄 存 器 设置 边沿 触发 模式 。 


触发 模式 。 


沿 触发 模式 ExtINT 
E 用 边沿 触发 模式 。 


如 


并 设置 为 Fixed 投 递 模式 ， 那 么 Pentium 4、Xeon 和 


1 于 LINTI1 引 脚 不 支持 电 平 触发 模式 ， 所 以 软件 应 始终 将 


LVT 定 时 器 寄存 器 的 定时 模式 区 域 可 为 定时 器 提供 多 种 运行 模式 ， 表 10-11 是 各 运行 模式 的 特点 


介绍 
表 10-11 定时 器 /计数 器 模式 表 
位 值 模式 名 功能 描述 
00 One-Shot 一 次 性 计数 
01 Periodic 周期 计数 
10 TSC-Deadline 指定 TSC 值 计数 
11 N/A 保留 
2. ESR 寄 存 器 
Local APIC 能 够 监测 出 收发 中 断 消 息 时 出 现 的 错误 。 一 旦 Local APIC 监 测 到 有 错误 发 生 ， 便 会 通 
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过 LVT 的 错误 寄存 器 向 处 理 器 投递 中 断 


态 寄存 器 ) 内 ， 图 10-8 是 ESR 各 位 的 功能 说 明 。 


31 


消息 ， 再 将 错误 内 容 记 录 在 ESR ( Error Status Register， 错 误 状 


87 6 54 3 210 


物理 地 址 : FEE0 0280h 
初始 值 : 0h 


保留 


寄存 器 地 址 不 合法 


收 到 的 中 
发 送 的 中 
I 
接收 中 
发 送 中 


| 


断 向 量 号 不 合法 
断 向 量 号 不 合法 


PI 无 法 正确 定向 


断 消息 受理 错误 


断 消息 受理 错误 


接收 校 验 和 错误 
发 送 校 验 和 错误 
图 10-8 ESR 的 位 功能 说 明 图 
图 10-8 描 述 了 Local APIC 在 收发 中 断 消息 时 可 能 出 现 的 错误 状态 ( 类 型 )， 表 
态 的 功能 描述 。 


je 


0-12 是 这 些 错 误 状 


表 10-12 ESR 位 的 功能 说 明 表 


位 名 位 置 功能 描述 

发 送 校 验 和 错误 0 Local APIC 监 测 到 一 条 发 往 APIC 总 线 的 中 断 消 息 出 现 校 验 和 错误 

接收 校 验 和 错误 1 Local APIC 监 测 到 一 条 来 自 APIC 总 线 的 中 断 消 息 出 现 校 验 和 错误 

发 送 中 断 消息 受理 错误 2 Local APIC 监 测 到 一 条 发 往 APIC 总 线 的 中 断 消息 未 被 其 他 APIC 受 理 

接收 中 断 消息 受理 错误 3 Local APIC 监 测 到 一 条 来 自 APIC 总 线 的 中 断 消息 未 被 其 他 APIC 受 理 

IPI 无 法 正确 定向 4 在 Local APIC 不 支持 Lowest-Priority 投 递 模式 的 情况 下 ， 使 用 Lowest- Priority 
投递 模式 发 送 IPI 消 息 

发 送 的 中 断 向 量 号 不 合法 5 Local APIC 通 过 ICR 或 SELF IPI 寄 存 器 发 送 的 中 断 消息 的 中 断 向 量 号 不 合法 

接收 的 中 断 向 量 号 不 合法 6 Local APIC 接 收 的 中 断 消息 〈 消息 也 可 来 自 于 Local APIC 内 部 ) 的 中 断 向 量 
号 不 合法 

寄存 器 地 址 不 合法 7 在 Local APIC 处 于 xAPIC 模 式 下 ， 软 件 访 问 了 保留 的 Local APIC 寄 存 咒 地 址 
空间 


注 : Lowest-Priority 投 递 模 式 将 在 IO APIC 节 中 了 予以 讲解 。 


ESR 是 可 读 写 寄存 器 ， 处 理 器 在 读 取 ESR 的 数值 前 ， 必 须 先 向 其 中 写 和 一 个 数值 。 写 人 的 数值 不 
会 影响 后 续 的 读 取 操作 ， 通 常情 况 下 应 该 写 人 数值 0。 

在 x2APIC 模 式 下 ， 软 件 可 使 用 RDMSR 和 wRMSR 指 令 访 问 Local APIC 的 寄存 器 组 。 如 果 使 用 这 对 指 
令 访 问 保留 的 寄存 器 ， 则 会 触发 #GP 异 和 党。 

3. TPR、PPR 和 CR8 寄 存 器 

Local APIC 同 样 以 中 断 向 量 号 作为 中 断 优先 权 仲 裁 的 依据 ， 把 控 着 每 个 经 由 它 投 递 至 处 理 器 的 中 
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中 断 向 量 号 是 一 个 8 位 的 数值 ， 它 可 进一步 拆 分 为 高 4 位 和 低 4 位 两 部 分 ， 高 4 位 是 中 断 优 先 权 等 
级 ， 而 低 4 位 则 是 中 断 优先 权 的 子 等 级 。 

中 断 优先 权 等 级 ( Interrupt-Priority Class ) 是 中 断 向 量 号 的 高 4 位 ， 数 值 1 是 其 最 低 优 先 权 等 级 ，15 
是 其 最 高 优先 权 等 级 。 中 断 向 量 号 0~31 已 被 处 理 器 保留 使 用 ， 那 么 软件 可 配置 的 中 断 优先 权 等 级 的 有 
效 范围 是 2~15。 每 个 中 断 优先 权 等 级 包含 16 个 向 量 号 ， 分 别 对 应 着 中 断 向 量 号 的 低 4 位 ， 其 数值 越 大 
优先 权 越 高 。 

不 仅 如 此 ，Local APIC 还 提供 了 任务 优先 权 ( Task Priority ) 和 人 处理 髓 优先 权 ( Processor Priority ) 
来 决定 哪些 中 断 向 量 号 对 应 的 中 断 请 求 可 被 处 理 。 

@ 任务 优先 权 

任务 优先 权 是 处 理 器 可 被 中 断 的 优先 权 阔 值 。 通 过 这 个 机 制 可 使 操作 系统 临时 阻塞 低 优 先 权 的 
断 ， 以 保证 高 优先 权 中 断 的 处 理 效率 。 任 务 优先 权 等 级 ( Task-Priority Class ) 是 TPR ( Task Priority 
Register， 任 务 优先 权 寄 存 器 ) 的 第 4 位 ~ 第 7 位 ， 它 是 可 读 写 位 域 ， 软 件 可 向 其 写 入 阔 值 来 设置 任务 优 
先 权 。 图 10-9 记 录 了 TPR 各 位 的 功能 。 
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任务 优先 权 等 级 
任务 优先 权 子 等 级 


物理 地 址 ; FEE0 0080h 
初始 值 : 0h 


图 10-9 TPR 的 位 功能 说 明 


TPR 还 决定 了 PPR (Processor Priority Register， 处 理 带 优先 权 寄 存 器 ) 的 数值 ， 它 们 共同 控制 着 10 
中 断 优 先 权 的 响应 。 
@ 处 理 器 优先 权 
处 理 器 优先 权 受 控 于 任务 优先 权 ， 它 们 共同 控制 着 中 断 的 优先 权 阐 值 。PPR 是 一 个 只 读 寄 存 右 ， 
它 的 第 4~7 位 描述 了 处 理 带 优先 权 等 级 ( Processor-Priority Class )， 其 取 值 范围 为 0~1$。 处 理 器 优先 权 
等 级 代表 着 其 所 在 处 理 器 的 当前 执行 优先 权 ， 图 10-10 是 PPR 各 位 的 功能 说 明 。 
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处 理 器 优先 权 等 级 


处 理 器 优先 权 子 等 级 


物理 地 址 ;FEE0 00AOh 
初始 值 : 0h 


图 10-10 PPR 的 位 功能 说 明 图 
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PPR 的 数值 是 由 TPR 与 ISRV 相 比较 而 得 ， 其 中 的 ISRV 代 表 ISR 寄 存 器 目前 的 最 高 中 断 优 先 权 请 求 
(向 量 号 )， 如 果 ISRV=00h 表 示 此 刻 没 有 中 断 请 求 。 表 10-13 是 PPR 的 取 值 方法 介绍 。 


表 10-13 PPR 的 取 值 对 照 表 


PPR TPR 和 ISRV 的 比较 结果 PPR 的 取 值 
PPR[7:4] TPR[7:4]<ISRV[7:4] ISRV[7:4] 
TPR[7:4]>ISRV[7:4] TPR[7:4] 
TPR[7:4] = ISRV[7:4] TPR[7:4] 或 ISRV[7:4] 
PPR[3:0] TPR[7:4]<ISRV[7:4] PPR[3:0]=TPR[3:0] 
TPR[7:4]>ISRV[7:4] PPR[3:0]=0 
TPR[7:4] = ISRV[7:4] PPR[3:0]=TPR[3:0] 或 0 


处 理 器 优先 权 等 级 决定 了 处 理 器 可 被 中 断 的 优先 权 阔 值 。 处 理 器 只 能 响应 比 处 理 器 优先 权 等 级 
更 高 的 中 断 请 求 。 当 其 值 为 0 时 表明 处 理 器 不 会 禁止 任何 中 断 请 求 ， 而 当 其 值 为 15 时 则 说 明 处 理 器 
已 禁止 所 有 中 断 请 求 。 注 意 ，NMI、SMI、INIT、ExtINT 和 Start-Up 等 投递 模式 不 受 处 理 器 优先 权 机 
制 的 影响 。 

@ CR8 控 制 寄 存 器 
在 IA-32e 模 式 下， 系统 可 通过 执行 MOV CR8 指 令 来 操作 TPR， 也 就 是 说 CR8[3:0] 与 TPR[7:4] 为 同一 
位 域 CR8 是 一 个 64 位 的 控制 寄存 器 , 它 只 有 低 4 位 有 效 , 其 余 60 位 保留 使 用 且 数 值 必须 为 0 当 MoV CR8 
间 令 执行 结束 后 ， 新 的 任务 优先 权 等 级 便 即 刻 生 效 。 执 行 Mov CRn 指 令 或 操作 TPR 都 必须 在 0 特权 级 下 
进行 ， 否 则 将 触发 异常 (通常 为 #GP 异 常 )。 图 10-11 是 CR8 控 制 寄 存 器 各 位 的 功能 说 明 。 
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初始 值 : 0h 
图 10-11 CR8 控 制 寄存 融 的 位 功能 说 明 图 


当 软 件 向 CR8[3:0] 写 入 优先 权 等 级 后 ,处理 器 立即 将 其 更 新 到 APIC.TPR[7:4], 并 把 APIC.TPR[3:0] 
赋值 为 0。 当 软件 从 CR8 控 制 寄存 器 读 取 数 据 时 ， 处 理 器 会 先 将 APIC.TPR[7:4] 保 存 至 CR8[3:0]， 再 将 
其 0 扩展 至 64 位 。 

对 于 直接 更 新 APIC.TPR 寄 存 器 或 者 借助 CR8 控 制 寄 存 器 间接 更 新 APIC.TPR 寄 存 器 而 言 ， 两 者 并 
没有 区 别 。 这 两 种 方式 操作 系统 均 可 使 用 ， 但 不 可 混合 使 用 。 

4. IRR、ISR 和 TMR 寄 存 器 
在 Local APIC 的 Fixed 投 递 模式 下 ， 中断 请 求 可 保存 在 IRR ( InterruptRequestRegister， 中 上 断 请 求 寄 
存 器 ) 和 ISR (In-Service Register， 正 在 服务 寄存 器 ) 中 。( 其 他 投递 模式 直接 将 中 断 消 息 投 递 至 处 理 
克 核 心 ， 而 不 会 经 由 ISR 和 IRR 寄 存 嚣 。) 

IRR 寄 存 器 用 于 记录 已 被 处 理 器 接收 , 但 尚未 处 理 的 中 断 消息 。 当 Local APIC 接 收 到 中 断 消息 时 ， 
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它 会 置 位 中 断 向 量 号 对 应 的 IRR 寄 存 右 位 。 当 处 理 器 核心 准备 处 理 下 一 个 中 断 消息 时 ，Local APIC 会 
复位 IRR 寄 存 器 里 的 最 高 中 断 优先 权 请 求 位 (从 已 被 置 位 项 中 选择 )， 并 置 位 其 对 应 的 ISR 寄 存 器 位 。 
随后 ， 处 理 需 将 执行 ISR 寄 存 器 里 的 最 高 中 断 优先 权 请 求 。 伴 随 着 中 断 请 求 处 理 结束 ，Local APIC 将 复 
位 中 断 向 量 号 对 应 的 ISR 寄 存 器 位 ， 并 准备 处 理 下 一 个 中 断 请 求 。 

ISR 和 IRR 是 两 个 只 读 寄存 器 ， 每 个 寄存 器 的 位 宽 是 256 位 ， 其 中 的 0~15 位 保留 使 用 ， 图 10-12 是 这 
些 寄存 器 的 位 功能 说 明 。 


物理 地 址 : IRR(FEE0 0200h ~ FEE0 0270h) 
ISR(FEEO 0100h ~ FEE0 0170h) 
TMR(FEEO 0180h ~ FEEOQ 01FOh) 
初始 值 : 0h 


图 10-12 JIRR、ISR、TMR 寄 存 器 的 位 功能 说 明 图 


10-12 还 描述 了 TMR (Trigger Mode Register， 触 发 模式 寄存 髓 )， 该 寄存 器 用 于 记录 每 个 中 断 请 
求 的 触发 模式 。 当 中 断 向 量 号 对 应 的 TMR 寄 存 器 位 被 置 位 时 ， 表 明 中 断 请 求 采 用 电 平 触发 模式 ， 否 则 
说 明 采 用 边沿 触发 模式 。 对 于 采用 电 平 触发 模式 的 中 断 请 求 ， 如 果 关 闭 禁止 广播 EOI 消 息 ， 那 么 EOI 
消息 将 广播 到 所 有 IO APIC 中 。 

5. EOI 寄 存 器 

除了 NMI、SMI、INIT、ExtINT 和 Start-Up 等 中 断 投递 模式 外 ， 其 他 中 断 投递 模式 都 必须 在 中 断 处 
理 过 程 里 明确 包含 写 人 EOI ( End-Of Interrupt， 中 断 结束 寄存 器 ) 的 代码 。 这 段 代 码 必须 在 中 断 处 理 
过 程 返回 前 执行 , 通常 情况 下 是 在 执行 IRET 指 令 前 。 此 举 意味 着 当前 中 断 处 理 过 程 已 执行 完毕 ,Local 
APIC 可 处 理 下 一 个 中 断 请 求 ( 从 ISR 寄 存 器 中 取得 )。 

当 Local APIC 收 到 EOI 消 息 后 ， 它 将 复位 ISR 寄 存 咒 的 最 高 位 ， 而 后 再 派送 下 一 个 最 高 中 断 优先 
权 的 中 断 请 求 到 处 理 器 核心 。 在 关闭 禁止 广播 EOI 消 息 的 前 提 下 , 如 果 中 断 请 求 采 用 电 平 触发 模式 ， 
那么 Local APIC 会 在 收 到 EOI 消 息 后 ， 将 其 广播 到 所 有 IO APIC 中 。 图 10-13 描 绘 了 EOI 寄 存 器 各 位 
的 功能 。 
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物理 地 址 : FEE0 00BOh 
初始 值 : 0h 


图 10-13” ”EOI 寄存 器 的 位 功能 说 明 图 


系统 软件 更 应 该 将 EOI 消 息 直接 投递 到 目标 W/O APIC 中 ， 而 不 是 通过 Local APIC 向 所 有 I/O APIC 广 
播 EOI 消 息 。SVR[12] 用 于 控制 禁止 广播 EOI 消 息 功能 的 开启 与 关闭 。 
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6. SVR 寄 存 器 


如 果 处 理 器 在 应 答 Local APIC 的 中 断 请 求 期 间 ， 提 高 了 中 断 优 先 权 ( 大 于 或 等 于 当前 优先 权 )， 此 
举 迫 使 Local APIC 屏 项 当前 中 断 请 求 ， APIC 只 能 被 迫 向 处 理 器 投递 一 个 伪 中 断 请 求 。 伪 中 
断 请 求 不 会 置 位 ISR 寄 存 器 ， 所 以 伪 中 断 请 求 的 处 理 程序 无 需 发 送 EOI 消 息 


伪 中 断 请 求 的 中 断 向 量 号 由 SVR Spurious-Interrupt Vector Register， 伪 中 断 向 量 寄存 器 ) 提供 ， 
该 寄存 器 的 用 途 较 多 ， 图 10-14 描 绘 了 SVR 各 位 的 功能 。 


31 131211 109 87 0 


禁止 广播 EOI 消 息 使 能 标志 位 
0; 关闭 
1: 开启 
焦点 处 理 器 检测 标志 位 
0: 开启 
1: 关闭 
APIC 软 件 使 能 标志 位 
0: 关闭 APIC 
1: 开启 APIC 
伪 中 断 向 量 号 
物理 地 址 ， FEE0 00FOh 
初始 值 ， 0000 00FFh 


图 10-14 SVR 的 位 功能 说 明 图 


从 图 10-14 可 知 ，SVR 目 前 共 支 持 4 种 功能 ， 表 10-14 是 SVR 各 位 的 功能 介绍 。 


表 10-14 ”SVR 的 位 功能 介绍 表 


位 名 位 置 功能 描述 
伪 中 断 向 量 号 0~7 8 定 处 理 伪 中 断 请 求 的 中 断 向 量 号 
APIC 软 件 使 能 标志 位 8 此 位 允许 软件 临时 关闭 Local APIC 
焦点 处 理 器 检测 标志 位 9 控制 焦点 处 理 器 检测 功能 的 开启 与 关闭 
禁止 广播 EOI 消 息 使 能 标志 位 12 控制 禁止 广播 EOI 消 息 功 能 的 开启 与 关闭 


注 : 焦点 处 理 右 检测 标志 位 只 在 Lowest-Priority 投 递 模式 下 有 效 。 


禁止 广播 EOI 消 息 标 志 位 决定 了 电 平 触发 模式 的 中 断 请 求 是 否 会 广播 EOI 人 信息， 默认 值 为 0 表示 广 
播 EOI 消 息 。 通 过 Local APIC 版 本 寄存 器 的 第 24 位 可 检测 是 否 支持 禁止 广播 EOI 消 息 功能 ， 如 果 不 支持 
禁止 广播 EOI 消 息 功 能 ， 那 么 SVR[12] 保 留 使 用 ， 其 值 为 0。 

10.3 1|/O APIC 


Local APIC 主 要 负责 接收 中 断 请 求 或 


断 消息 ， 并 将 其 提交 给 处 理 器 核心 。 而 IO APIC 则 主要 用 
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于 收集 VO 设备 的 中 断 请 求 ， 再 将 中 断 请 求 封装 成 中 断 消息 投递 到 目标 处 理 器 的 Local APIC 中 。 

从 图 10-1 可 知 ，LIO APIC 并 非 位 于 处 理 器 中 ， 而 是 位 于 系统 前 端 总 线 之 下 ， 即 位 于 电脑 主板 上 。 
那么 ， 应 该 如 何 访问 MO APIC 的 寄存 器 组 呢 ? 而 且 ，LO APIC 作 为 APIC 的 一 部 分 ， 其 结构 及 可 配置 功 
能 想必 会 和 Local APIC 一 样 复 杂 吧 ? 以 上 这 些 疑问 都 会 在 本 节 中 找到 答案 。 


10.3.1 1/O APIC 控制 器 的 基础 信息 


IO APIC 并 不 像 Local APIC 那 样 拥 有 多 种 访问 方式 。 IO APIC 位 于 主板 芯片 组 中 , 它 对 外 仅 提 供 了 
三 个 间接 访问 寄存 器 ， 这 三 个 寄存 器 分 别 用 于 索引 IO APIC 寄 存 器 的 地 址 、 向 IO APIC 寄 存 器 数据 以 
及 向 IO APIC 发 送 EOI 消 息 。 

IO APIC 只 负责 收集 VO 外 设 的 中 断 请 求 ， 并 将 中 断 请 求 封装 成 中 断 消息 投递 至 目标 处 理 器 核心 ， 
其 主要 作用 是 将 中 断 请 求 封装 成 中 断 消 息 ， 因 此 IO APIC 寄 存 器 只 有 保存 ID 、 版 本 和 配置 中 断 消 息 三 
种 功能 。 

1. MO APIC 的 间接 访问 寄存 器 

由 于 IO APIC 的 寄存 器 位 于 主板 芯片 组 中 ， 所 以 处 理 器 只 能 借助 主板 芯片 组 提供 的 寄存 器 来 间接 
访问 IO APIC 寄 存 器 组 。 通 过 主板 芯片 组 共 提 供 的 两 个 显 式 的 寄存 器 ， 便 可 访问 IO APIC 的 所 有 寄存 
器 。 在 默认 情况 下 ， 这 两 个 寄存 器 会 被 映射 到 物理 地 址 FEC00000h 处 的 一 段 内 存 空 间 里 ， 表 10-15 总 结 
了 所 有 用 于 访问 IO APIC 寄 存 器 组 的 间接 访问 寄存 需 。 


表 10-15 ”1/O APIC 寄 存 器 组 的 间接 访问 寄存 器 


物理 地 址 助 记 名 全 称 名 称 位 宽 访问 权限 
FECxy000h IOREGSEL 1/O Register Select 间接 索引 寄存 器 8 读 写 
FECxy010h IOWIN LO Window 数据 操作 寄存 器 32 读 写 
FECxy040h EOI EOI Register EOI 寄 存 器 32 只 写 


注 : 通过 配置 OIC 寄存 器 ， 处 理 器 可 调整 间接 访问 寄存 器 的 物理 地 址 ，xy 代 表 可 配置 值 ， 默 认 值 为 00h。 


表 10-15 不 但 提供 了 LO APIC 的 间接 索引 寄存 器 和 数据 操作 寄存 器 ， 还 提供 了 EOI 寄 存 器 ， 现 在 就 
对 这 三 个 间接 访问 寄存 器 进行 逐一 讲解 。 
@ IOREGSEL 寄 存 器 (R/W ) 
IOREGSEL 是 一 个 32 位 的 可 读 写 寄存 器 , 它 用 于 间接 索引 IO APIC 寄 存 器 , 图 10-15 描 述 了 IOREGSEL 
寄存 器 各 位 的 功能 。 
31 8 7 0 


保留 APIC 寄存 器 地 址 


图 10-15 IOREGSEL 寄 存 器 的 位 功能 说 明 图 


IOREGSEL 寄存器 使 用 低 8 位 来 索引 IO APIC 寄 存 器 , 表 10-16 记 录 了 目前 可 访问 的 IO APIC 寄 存 器 
的 索引 地 址 。 

e@ IOWIN 寄 存 器 (R/W ) 

IOWIN 是 一 个 32 位 的 可 读 写 寄存 器 ， 它 用 于 读 写 目标 IJO APIC 寄 存 器 内 的 数据 。 每 次 读 写 操作 必 
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须 以 4B 为 单位 ， 图 10-16 描 述 了 IOWIN 寄 存 器 各 位 的 功能 。 


31 0 


APIC 寄存 器 数据 


图 10-16 IOWIN 寄 存 器 的 位 功能 说 明 图 


当 IOREGSEL 寄 存 需 索引 到 IO APIC 寄 存 器 ， 处 理 器 通过 IOWIN 寄 存 器 可 读 写 IO APIC 寄 存 器 内 
的 数据 。 

e@ EOI 寄 存 器 (WO ) 

采用 电 平 触发 模式 的 中 断 请 求 ,在 中 断 处 理 结束 时 必须 通过 EOI 寄 存 器 向 IO APIC 发 送 EOI 消 息 ， 
图 10-17 便 是 EOI 寄 存 器 各 位 的 功能 说 明 。 


31 8 7 0 


保留 EOI 寄 存 器 


图 10-17 ”EOI 寄存器 的 位 功能 说 明 图 


EOI 寄 存 器 使 用 低 8 位 来 检索 与 中 断 向 量 号 相 匹配 的 IO 中 断定 向 投递 寄存 器 ， 并 向 其 发 送 EOI 消 
息 。 当 目标 WO 中 断定 向 投递 寄存 器 收 到 EOI 消 息 后 ， 自 动 复位 远程 IRR 标 志 位 。 

2. I/O APIC 寄 存 器 

IO APIC 由 一 组 寄存 器 构成 表 10-16 总 结 了 IO APIC 的 所 有 可 用 寄存 器 处 理 器 可 通过 IOREGSEL 
和 IOWIN 寄 存 器 对 它们 进行 访问 。 值 得 注意 的 是 ， 每 次 必须 以 4B 为 单位 来 访问 IO APIC 寄 存 器 〈 读 写 
IOWIN 寄 存 器 )。 


表 10-16 ”I/O APIC 寡 存 器 的 索引 值 


索 引 值 助 记 名 全 称 名 称 位 宽 访问 权限 
00h IOAPICID IOAPIC ID IO APIC ID 寄存 器 32 读 写 
01h IOAPICVER IOAPIC Version IO APIC 版 本 寄存 器 32 只 读 
02h~0Fh 一 Reserved 保留 一 只 读 
10h~11h IOREDTBL0 Redirection Table 0 1/O 中 断定 向 投递 寄存 器 0 64 读 写 
12h~13h IOREDTBL1 Redirection Table 1 1/O 中 断定 向 投递 寄存 器 1 64 读 写 
3Eh~3Fh IOREDTBL23 ”Redirection Table 23 ”1/O 中 断定 向 投递 寄存 器 23 64 读 写 
40h~FFh 一 Reserved 保留 一 只 读 


注 : 有 些 资料 将 索引 值 02h 定 义 为 WO APIC 的 仲裁 寄存 器 ( Arbitration ID ) 。 


由 于 IOWIN 寄 存 器 的 位 宽 只 有 32 位 ， 对 于 表 10-16 中 的 64 位 IO 中 断定 向 投递 寄存 器 而 言 ， 它 们 必 
须 经 过 两 次 索引 操作 才能 完成 读 写 访问 。 接 下 来 将 对 各 类 IO APIC 寄 存 器 的 作用 予以 介绍 。 
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@ LO APIC ID 寄存 器 (R/W ) 
IO APIC ID 寄存 器 包含 有 一 个 4 位 的 IO APIC ID 值 ， 图 10-18 是 其 各 位 的 功能 说 明 。LIO APIC ID 值 
将 作为 WO APIC 的 物理 名 字 使 用 ， 所 有 APIC 总 线 上 的 APIC 设 备 都 拥有 唯一 的 APIC ID 值 。 


31 28 27 24 23 0 


IOAPIC ID 


图 10-18 IO APIC ID 寄存 器 的 位 功能 说 明 图 


在 使 用 WO APIC 前 ， 处 理 器 必须 向 IO APIC ID 寄存 器 写 人 正确 的 ID 值 ， 并 保证 此 值 在 APIC 总 线 上 
的 唯一 性 。 

@ 1/O APIC 版 本 寄存 器 (RO ) 
每 个 IO APIC 都 拥有 硬件 版 本 寄存 器 ， 它 保存 着 IO APIC 的 版 本 。 该 寄存 器 还 记录 着 可 用 RTE 
(Redirection Table Entry ) 数 。 图 10-19 是 IO APIC 版 本 寄存 器 各 位 的 功能 说 明 。 


31 24 23 16 15 87 0 


保留 APIC 版 本 


保留 ] 可 用 RTE 数 


图 10-19 IO APIC version 寄存 器 的 位 功能 说 明 图 


IO APIC 版 本 寄存 器 的 低 8 位 保存 着 IO APIC 设 备 的 版 本 号 ， 而 将 可 用 RTE 数 ( WO APIC 版 本 寄存 
器 的 第 16 位 ~ 第 23 位 ) 加 1 则 计算 出 VO APIC 支 持 的 RTE 数 量 。 例 如 ,在 PCH 设 备 中 ,可 用 RTE 数 为 17h， 
它 表 示 IO APIC 共 支持 24 个 RTE 寄 存 器 。 

@ IO 中 断定 向 投递 寄存 器 组 (R/W ) 

IO APIC 上 的 每 个 中 断 请 求 引 脚 都 有 一 个 IO 中 断定 向 投递 寄存 器 ( 简称 RTE 寄 存 器 ) 与 之 相对 
应 ，RTE 寄 存 器 描述 了 中 断 请 求 的 触发 模式 、 中 断 投递 模式 、 中 断 向 量 号 等 信息 ，RTE 寄 存 器 各 位 的 
功能 描述 请 参见 图 10-20。 


63 56 55 17 16 15 14 13 12 11 10 87 0 
投递 目标 保留 中 断 向 量 号 
国 投递 模式 
000 Fixed 
001 Lowest Priority 
屏蔽 标志 位 010 SMI 
触发 模式 100 NMI 
11 ExdNT 
BB 平 触发 极 性 
投递 状态 
标 模式 


图 10-20 RTE 寄存 器 的 位 功能 说 明 图 
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由 图 10-20 可 知 ，RTE 寄 存 器 的 位 功能 与 LVT 表 十 分 相似 ， 那 么 重复 的 部 分 就 不 再 描述 了 ， 以 下 是 
新 增 寄存 器 位 的 功能 描述 。 
[7:0] = 001 )， 


口 投递 模式 (Delivery Mode)。Lowest Priority 是 IO APIC 新 增 的 投递 模式 ( bit 


它 与 Fixed 投 递 模 式 相 似 ， 都 是 将 中 断 消息 投递 至 处 理 器 的 INTR 引 脚 ， 只 不 过 中 断 请 求 将 在 投 


目标 区 域 指 


递 


口 目标 模式 (Destination Mode )。 


NE 


自 


/CA 


定 的 处 理 融 核心 内 以 最 低 优先 权 执行 。 


它 指明 搜索 中 断 消息 接收 者 采用 


的 模式 , 0 为 物理 模式 ( Physical 


Mode )，1 为 逻辑 模式 ( Logical Mode )， 表 10-17 描 述 了 这 两 种 模式 的 特点 。 
表 10-17 各 目标 模式 的 功能 说 明 表 
目标 模式 功能 描述 
物理 模式 使 用 APIC ID 号 来 确定 接收 中 断 消息 的 处 理 器 
逻辑 模式 使 用 LDR 和 DFR 寄 存 器 提供 的 自 定义 APIC ID 号 来 确定 接收 中 断 消息 的 处 理 器 


注 : 关于 逻辑 模式 的 讨 


口 投递 目标 〈Destination Field)。 投 递 目 标 
目标 模式 自动 调整 有 效 位 宽 ， 表 10-18 记 录 着 各 目标 模式 使 用 


细 功 能 请 参见 12.2.2 节 。 


区 域 保存 着 中 断 消 | 


的 位 宽 。 


表 10-18 各 目标 模式 的 有 效 投递 目标 位 宽 说 明 表 


息 接 收 者 的 APIC ID 号 ， 


它 可 根据 


目标 模式 投递 目标 域 
物理 模式 使 用 Destination Field[59:56] 域 来 保存 APIC ID 号 
逻辑 模式 使 用 Destination Field[63:56] 域 来 保存 自 定义 APIC ID 号 
10.3.2 ”1/O APIC 整体 结构 及 各 引 脚 功能 
IO APIC 作 为 中 断 请 求 的 中 转 芯片， 不 停 地 将 外 部 IO 设备 发 送 来 的 中 断 请 求 封 装 成 中 断 消 息 ， 再 
将 其 投递 至 目标 处 理 右 核心 。 图 10-21 描 绘 了 处 理 器 核心 、Local APIC 、IO APIC、8259A 以 及 IO 外 设 


中 断 请 求 引 脚 的 布线 结构 。 
会 出 了 8259A 中 断 控制 器 与 IO APIC 各 中 断 输入 引 脚 (或 称 中 断 请 求 引 脚 ) 链接 的 


图 10-21 清 晰 描绘 


3 引 脚 只 能 接收 一 个 外 部 设备 的 中 断 请 求 ， 


外 部 设备 。 在 这 些 


多 个 设备 共享 同一 个 中 断 请 求 引 脚 。 对 于 共享 
汤 输 入 引 脚 接收 到 不 同 设备 的 中 断 请 求 。 表 10-19 汇 总 
| 脚 可 接收 的 中 断 源 。 


或 开关 可 使 同 
APIC 各 中 汤 输 入 5 


P 断 输入 引 脚 中 ， 大 部 分 


引 脚 则 允许 


某 些 


! 靳 请 求 引 脚 的 设备 而 言 ， 处 理 器 通过 开启 不 同 的 设备 
出 8259A 中 断 控 


制 器 和 LO 
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BSP AP 


CPU1 


Local APIC 


CPU2 


Local APIC 


APIC EN 


INTR/LINTO 


NMI NMUVLINTI 


INIT 


ICC BUS 


IRQ1 . 

2 

3 
8254 TIMER 5 

5 

6 

7 LO APIC 
IRQS8# 2 

9 


10 
11 
IRQ13 12 
13 
EISA DMA CHAINING 14 
FROM BSP 
FERR# 
| FERR 
IGNNE# |SAMPLING 
0 
1 器 
2 INTR 
了 8259A 二 必 片 
5 
6 
ABFULL ABEUIL 7 
(PS/2 MOUSE) | SAMPLING 
0 
1 
PIRQO0-3 ; 
3 I 
EDGE/LEVEL TRIGGER 4 ”3259A 从 心 片 
POLARITY CONTROL 5 
6 
IRQ3-7, 9-12,14,15 | TRQx PIRQ 15 7 IMCR 
LITM ) > 79- 
LITM3.7, 9-12.14.15 LITM) MAPPING | 3-7,9-11,14,15 E0 


图 10-21 Local APIC 和 IO APIC 的 整体 结构 图 
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表 10-19 ”8259A 和 I/O APIC 中 断 控 制 器 各 引 脚 功能 表 
引 脚 IO APIC 中 断 源 8259A 中 断 源 8259A 主 /从 芯片 
0 8259A 主 芯片 定时 /计数 器 0/HPET #0 8259A 主 芯片 
1 键盘 键盘 8259A 主 芯片 
2 HPET #0、8254 定时 器 0 8259A 从 芯片 8259A 主 芯片 
3 串 行 接口 2&4 串 行 接口 2&4 8259A 主 芯片 
4 串 行 接口 1&3 串 行 接口 1&3 8259A 主 芯片 
5 并 行 接 口 2 并 行 接口 2 8259A 主 芯片 
6 软盘 驱动 器 软盘 驱动 器 8259A 主 芯片 
7 并 行 接口 1 并 行 接口 1 8259A 主 芯片 
8 RTC/HPET #1 RTC/HPET #1 8259A 从 芯片 
9 无 无 8259A 从 芯片 
无 无 8259A 从 芯片 
11 HPET 雹 HPET 坊 8259A 从 芯片 
12 HPET 交 、 鼠 标 (PS/2 接 口 ) HPET 交 、 和 鼠标 (PS/2 接 口 ) 8259A 从 芯片 
13 FERR#、DMA FERR#、DMA 8259A 从 芯片 
14 主 SATA 接 口 主 SATA 接 8259A 从 芯片 
15 从 SATA 接 从 SATA 接 8259A 从 芯片 
16 PIRQA# E 无 
17 PIRQB# 无 无 
18 PIRQC# E 无 
19 PIRQD# 无 无 
20 PIRQE# 车 无 
21 PIRQF# CE 无 
22 PIRQG# 无 无 
23 PIRQH# E 无 


PICA 能 通过 特殊 总 线 与 处 型 


和 APIC 的 
INTR 引 脚 。 


10.4 中断 控制 器 
物理 平台 为 了 向 前 


目前 ， 


: FERR# 为 数字 协 处 理 器 错误 ，PIRQA#PIRQH# 为 PCI 总 线 共享 中 断 。 


与 此 同时 ， 我 们 还 能 从 布线 结构 了 解 到 IO APIC 和 8259A 中 断 控 
器 的 Local APIC 相 连 ; 而 对 于 8259A 中 断 控制 器 来 说 ， 它 既 可 以 作为 外 
! 基 请 求 引 脚 ， 也 可 以 连接 至 Local APIC 的 LINT0 引 脚 ， 


制 器 与 处 理 需 的 通信 方式 


还 可 以 连接 至 处 到 


LO 


各 的 


容 性 考虑 ， 


这 些 连接 方式 的 选择 同样 是 通过 开启 不 同 的 设备 或 开关 实现 的 。 


和 的 模式 选择 与 初始 化 


同时 集成 有 Local APIC、LO APIC 和 类 825$9A 三 种 中 断 控 甫 


项 ,这些 控制 锅 可 以 与 处 理 融 组 成 多 种 连接 方式 。 
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接 下 来 将 对 中 断 控 制 器 可 组 成 的 连接 方式 予以 介绍 。 随 后 ， 再 以 一 种 基于 多 核 处 理 需 的 典型 连接 
方式 为 例 ， 讲 解 中 断 控制 器 的 初始 化 过 程 。 


10.4.1 ”中断 模式 


在 多 核 处 理 器 平台 中 , 不仅 配 有 Local APIC 和 IO APIC, 还 集成 了 类 8259A 中 断 控 制 器 。 它 们 可 以 
组 成 多 种 中 断 模 式 ， 这 些 中 断 模 式 大 体 上 可 分 为 以 下 三 类 。 
口 PIC 中 断 模 式 。 它 避 开 所 有 APIC 设 备 ， 强 制 使 系统 平台 运行 于 单 处 理 器 模式 。 
口 Virtual Wire 中 断 模式 。 它 仅 使 用 BSP 处 理 器 的 APIC 设 备 ， 其 工作 方式 与 PIC 模式 相同 。 
口 Symmetric MO 中 断 模式 。 它 使 系统 中 的 每 个 处 理 器 核心 都 可 以 处 理 中 断 请 求 。 
现 以 标准 多 核 处 理 器 平台 结构 为 例 ， 讲 述 各 中 断 模 式 在 此 平台 结构 中 的 连接 方式 。 

1. PIC 中 断 模 式 

PIC 中 断 模式 采用 类 8259A 中 断 控 制 器 来 投递 中 断 请 求 。 在 该 模式 下 ， 中 断 请 求 只 能 投递 至 BSP 处 
理 器 核心 ， 整 个 中 断 投 递 过 程 不 会 有 Local APIC 和 IO APIC 参 与。 图 10-22 描 述 了 PIC 中 断 模式 的 连接 
结构 ， 通 过 配置 IMCR ( Interrupt Mode Configuration Register， 中 断 模 式 配 置 寄 存 器 ) 寄存 器 ， 我 们 可 
使 PIC 中 断 模 式 下 的 硬件 绕 过 IO APIC， 进 而 将 中 断 请 求 直接 发 送 至 处 理 器 。 


ss 


Local 
APIC 
3 


LINTINO LINTIN1 


APIC 
2 


LINTINO LINTIN1 


图 10-22 ”PIC 中 断 模式 结构 图 


IMCR 寄 存 器 可 控制 BSP 处 理 吉 接收 中 断 请 求 的 链 路 ， 即 选择 接收 类 8259A 的 中 断 请 求 ， 或 选择 接 
收 Local APIC 的 中 断 请 求 。IMCR 是 一 个 间接 访问 寄存 占 ， 通 过 向 IO 端口 22h 写 人 IMCR 的 地 址 〈 地 址 
70h )， 再 向 端口 23h 写 人 IMCR 的 数值 来 达到 操作 IMCR 寄 存 器 的 目的 。 当 系统 平台 上 电 后 ，IMCR 寄 存 
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器 的 默认 值 是 00h， 此 时 NMI 和 类 8259A 的 INTR 引 脚 将 直接 连 人 BSP 处 理 器 。 如 果 向 IMCR 寄 存 需 写 人 


01h， 可 强制 将 NMI 和 类 8259A 的 


PpP 断 请 求 发 往 APIC ( 可 以 是 Local APIC 或 IO APIC )。 


为 PIC 中 断 模式 实际 使 用 的 硬件 中 断 配 置 与 PC/AT 系 统 平 台 相 同 ， 这 也 使 得 PIC 中 断 模 式 可 兼容 


PC/AT 系 统 平台 。 


2. Virtual Wire 中 断 模 式 


Virtual Wire 中 断 模式 是 基于 APIC 设 备 的 单 处 理 需 模式 , 它 为 所 有 DOS 软 件 的 启动 和 运行 提供 了 硬 


件 环 境 。Virtual Wire 中 断 模 式 包 含 两 种 子 模 式 ， 一 种 是 基于 Local APIC 的 Virtual Wire 中 渐 模 式 ， 男 一 


种 是 基于 IO APIC 的 Virtual Wire 


! 靳 模式 。 


这 两 种 中 断 模 式 ， 都 将 中 断 请 求 从 类 8259A 投 递 至 Local 


APIC 中 ， 而 不 同 点 在 于 投递 的 线路 上 是 否 会 经 过 1/O APIC。 
@ 基于 Local APIC 的 Virtual Wire 中 断 模式 
图 10-23 提 供 了 一 种 基于 Virtual Wire 中 断 模 式 的 硬件 环境 ， 该 硬件 环境 将 所 有 中 断 请 求 投递 至 类 


8259A 中 断 控 制 器 管理 


， 再 由 类 8259A 统 一 把 中 断 请 求 发 送 至 BSP 处 理 器 的 LINTIN0 引 脚 。 此 时 ， 处 理 


器 核心 的 Local APIC 会 将 LINTIN0 引 脚 收 到 的 中 断 请 求 交 给 LVT 的 LINT0 功 能 来 去 处 理 。 
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| 
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| 
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LINTINO 


ICC BUS 


中 断 输入 引 脚 


8259A 中 断 控制 器 


图 10-23 ”基于 Local 


图 


APIC 的 Virtual Wire 中 断 模 式 结 梳 


Local APIC 的 LINTIN0 引 脚 将 配置 为 ExtINT 投 递 模式 ， 此 投递 模式 会 把 类 8259A 可 编程 中 断 控 


制作 为 服务 于 处 理 器 的 外 部 中 断 控 制 器 。 在 这 个 环境 下 ， 中 断 向 量 号 


由 类 8259A 提 供 ， 而 IO APIC 


10.4 中断 控制 器 的 模式 选择 与 初始 化 361 


未 被 使 用 。 
@ 基于 IO APIC 的 Virtual Wire 中 断 模式 
Virtual Wire 中 断 模式 也 允许 使 用 MO APIC ， 如 图 10-24 所 示 ， 中 断 请 求 将 通过 8259A 控 制 器 采集 ， 


再 统一 穿 过 IO APIC 投 递 至 BSP 处 理 器 的 Local APIC 内 。 
BSP AP1 NE 
CPU1 CPU2 CPU3 
NMI INTR NMI INTR NMI INTR 


Local 
APIC 


Local 
APIC 
区 


Local 
APIC 
1 


LINTINO LINTIN1 LINTINO LINTINO LINTIN1 


AS 


有 LINTIN1 
LINTINO 


1CC BUS 


输入 中 断 引 脚 


图 10-24 ”基于 LO APIC 的 Virtual Wire 中 断 模 式 结构 图 


结合 图 10-24 和 图 10-21 可 知 ，LIO APIC 的 0 号 引 脚 连接 着 类 8259A 的 主 世 片 。 此 时 ，RTE0 寄 存 器 应 
该 设置 为 ExUNT 投 递 模 式 ， 以 便 类 8259A 的 中 断 请 求 可 以 顺利 投递 至 Local APIC， 中 断 向 量 号 依然 由 
8259A 中 断 控制 器 提供 。 

3. Symmetric 1/O 中 断 模式 

Symmetric IO 中 断 模式 应 用 于 多 核 处 理 器 操作 系统 中 ， 这 个 中 断 模 式 至 少 需要 一 个 LO APIC。 如 
果 操 作 系 统 准 备 使 用 Symmetric VO 中 断 模式 ， 首 先 要 将 类 8259A 中 断 控 制 器 屏蔽 ， 使 得 类 8259A 的 中 
断 请 求 引 脚 改 由 MO APIC 接 管 。Symmetric WO 中 断 模式 的 整体 结构 如 图 10-25 所 示 。 
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BSP | APIi AP2 
1 
CPU1 | CPU2 CPU3 
NMI INTR NMI INT INTR 
Local Local Local 
APIC APIC APIC 
1 2 3 
LINTINO LINTINI1 LINTINO LINTINI1 LINTINO LINTINI1 
spe a 
LINTINI 
二 
LINTIN0 
3 
RESET 
二 


ICC BUS 


时 怠 
余人 


8259A 中 断 控制 器 


图 10-25” Symmetric IO 中 


可 以 向 IMCR 寄 存 器 写 信 数值 01h 来 
达到 屏蔽 目的 ， 甚 至 还 可 以 通过 屏蔽 LVT 的 LINT0 寄 存 器 来 实现 。 


如 前 文 所 述 ， 


断 模式 结构 图 
屏蔽 类 8259A ， 亦 可 通过 类 8259A 的 IMR 寄 存 器 


本 节 的 余下 篇 幅 将 以 Symmetric IO 中 断 模式 为 例 ， 对 物理 平台 上 的 Local APIC 和 IO APIC 进 行 初 


始 化 。 


10.4.2 Local APIC 控制 器 的 初始 化 


在 初始 化 Local APIC 前 ， 必 须 先 将 源 类 8259A 中 断 控 
已 将 其 迁移 到 8259A.c 文 件 内 ， 并 为 APIC 设 备 创建 源码 文件 APIC.c。 为 了 便于 


些 高 级 内 存 管理 单元 的 日 志 显 示 程 ) 了 o 


本 次 调整 后 ， 中 断 控 制 器 的 配置 和 管理 
划分 ，Interrupt.c 文 件 可 以 更 专注 于 软件 层 正 
经 过 上 文 对 Local APIC 的 介绍 ， 想 


Local APIC 的 初始 化 程序 。 


将 由 专用 的 控 
i 的 实现 ， 即 中 断 处 理 
必 各 位 读者 已 经 摩拳擦掌 跃跃欲试 很 入 了 ， 那 么 现在 就 来 编写 


制 右 的 代码 从 Interrupt.c 文 件 中 分 离 出 来 ， 现 


叫嚣 驱动 文 伯 


夏 ， 这 里 还 市 减 了 一 


F8259A.c 和 APIC.c 负 责 。 经 此 
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以 下 6 个 代码 片段 逐步 完成 了 Local APIC 的 基础 信息 获取 和 初始 功能 设置 , 整个 过 程 将 以 检测 处 理 
器 对 Local APIC 设 备 的 支持 情况 为 起 始 ， 拉 开 Local APIC 的 初始 化 序幕 ， 请 看 代码 清单 10-1。 
代码 清单 10-1 第 10 章 \ 程 序 \ 程 序 10- 八 物理 平台 \kernel\APIC.c 


void Local_APIC_init() 
t 


Ha 


unsigned int x,y; 
unsigned int a,b,c,qd; 


//check APIC & x2APIC support 

get_cpuid(1,0,é&a,g&b,&c, &d); 

//void get_cpuid(unsigned int Mop,unsigned int Sop,unsigned int * a,unsigned int 
* pb,unsigned int * c,unsigned int * d) 

color_printk (WHITE,BLACK, "CPUID\t01,eax:%$#010x, ebx:%#010x,ecx:%#010x,edx: 
%$#010x\n",a,b,c,d); 


if((1<<9) & d) 


Color_printk (WHITE,BLACK, "HW support APIC&xAPIC\t"); 
else 


Color_printk (WHITE,BLACK, "HW NO support APIC&xAPIC\t"); 


if((1<<21) & c) 


Color_printk (WHITE,BLACK, "HW support x2APIC\nNn"); 
else 


Color_printk (WHITE,BLACK, "HW NO support x2APIC\n"); 


这 段 程序 通过 CPUID.01 功 能 检测 Local APIC 是 否 支 持 APIC、xAPIC 和 x2APIC 模 式 , 并 将 检测 结果 
显示 出 来 。 

随后 ， 通 过 置 位 IA32_APIC_BASE 寄 存 器 的 第 10 位 、 第 11 位 来 开启 Local APIC 的 工作 模式 ， 代 码 清 
单 10-2 实 现 了 这 一 过 程 。 


代码 清单 10-2 第 10 章 \ 程 序 \ 程 序 10- 八 物理 平台 \kernel\APIC.c 


//enable xAPIC & x2APIC 


_asm _ volatile _( "movg SOxL; SSrcx AE 
"rdmsr Wn" 
"bts S10 $$Srax NnNt" 
"bts 号 工 1 7 $$Srax \n\t" 
"wrmsr VE 
"movd SOxLTb; $$Srcx MERE 
"rdmsr \n\t" 
: "ea" (Xx) "=d" (Y) 
: "memory"); 


Color_printk (WHITE,BLACK, "eax:%#010x,edx:%#010x\t",x,y); 


if (x&O0xc00) 
Color_printk (WHITE,BLACK, "xAPIC & x2APIC enabled\n"); 


这 段 代码 借助 BTs 汇 编 指 令 置 位 IA32 APIC BASE 寄存 器 的 寄存 器 位 。 随 后 ， 再 将 置 位 后 的 数值 
回 写 到 IA32 APIC_BASE 寄 存 器 中 ， 并 对 写 和 结果 进行 测试 以 确保 开启 Local APIC 的 工作 模式 。 
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接 下 来 ， 再 置 位 SVR[8] 以 及 SVR[12] 来 开启 Local APIC 和 禁止 广播 EOI 消 息 功 能 ,程序 实现 如 代码 
清单 10-3 所 示 。 


代码 清单 10-3 ”第 10 章 \ 程 序 \ 程 序 10- 几 物理 平台 \kernel\APIC.c 


//enable SVR[8] 


_asm _ volatile __( 
"mova SOx80f, SSrcx NN 
"rdmsr NILNE™ 
"bts Se SESrax NENiEY 
"bts $12,%%rax\n\t" 
"wrmsr SINEN 
"mova SOx80f, SSrcx NAN 
"rgdmsr NRNE" 
:"=a" (XxX), "=d" (y) 
:"memory");} 


color_printk (WHITE,BLACK, "eax:%#010x,edx:%#010x\t",x,y); 


if (x&O0x100) 


color_printk (WHITE,BLACK, "SVR[8] enabled\n"); 
if (x&0x1000) 


color_printk (WHITE,BLACK, "SVR[12] enabled\n"); 


下 面 通过 读 取 MSR 寄 存 器 组 的 0x802 和 0x803 寄 存 器 来 取得 Local APIC 的 相关 基础 信息 ， 请 继续 看 
代码 清单 10-4。 


代码 清单 10-4 ”第 10 章 \ 程 序 \ 程 序 10- 八 物理 平台 \kernel\APIC.c 


//get local APIC ID 


_asm _ volatile __( 
"mova SOx802， SSrcx NiiNtE™ 
"rgdmsr NENE 
: "=a" 本 一 1 和 (y) 
:"memory"); 


Color_printk (WHITE,BLACK, "eax:%#010x,edx:%#010x\tx2APIC ID:%#010x\n",x,y,xX); 


//get local APIC version 


_asm _ volatile _( 
"movg $0x803, SSrcx NINE” 
"rgdmsr \n\t" 
# 和 (y) 
:"memory");} 


Color_printk (WHITE,BLACK,"local APIC Version:%#010x,Max LVT Entry:%#010x, 


SVR(Suppress EOI Broadcast):%#04x\t",x & Oxff, (x >> 16 & Oxff) + 1,x >> 24 & 0xl1); 


(OKEE). 0RLEO) 
color_printk (WHITE,BLACK, "82489DxX discrete APIC\n"); 


else if( ((x & Oxff) >= 0x10) && ((x & Oxff) <= 0x15) ) 
color_printk (WHITE,BLACK, "Integrated APIC\n"); 
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通过 代码 清单 10-4 可 获得 Local APIC 的 ID 值 、 版 本 号 , 而 且 还 能 计算 出 LVT 表 项 数 , 以 及 Local APIC 
是 否 支 持 禁 止 广播 EOI 功 能 。 

目前 ,由 于 系统 尚未 给 LVT 配 备 处 理 程序 ， 从 而 应 该 屏蔽 LVT 中 的 所 有 中 断 投 递 功能 ,代码 清单 10-5 
是 LVT 表 各 项 功能 的 屏蔽 代码 。 


代码 清单 10-5 ”第 10 章 \ 程 序 \ 程 序 10- 八 物理 平台 \kernel\APIC.c 


//mask all LVT 


_asm _ volatile _( "movg SOx82Ef， SEIrCx NSNEY //CMCI 
"wrmsr \n\t" 
"movd SOxX832， $$Srcx \n\t" //Timer 
"wrmsr \n\t" 
"movd $0x833, SEIrcx NANEY //Thermal Monitor 
"wrmsr \n\t" 
"movd SOxXx834， $$SIrcx NN //Performance Counter 
"wrmsr \n\t" 
"movd SOx835, $$Srcx \n\t" //LINTO 
"wrmsr \n\t" 
"movg $0x836, SESrcx \n\t" //LINT1 
"wrmsr \n\t" 
"movd SOx837, $$Srcx NAC //Error 
"wrmsr \n\t" 


:"a" (Ox10000),"d" (0x00) 
:"memory"); 


Color_printk (GREEN, BLACK, "Mask ALL LVT\n"); 
当 LVT 表 的 各 项 功能 被 屏蔽 后 ， 让 我 们 再 来 了 解 一 下 TPR 和 PPR 寄 存 器 的 当前 值 ， 通 过 代码 
清单 10-6 可 取得 这 两 个 寄存 器 的 数值 。 


代码 清单 10-6 ”第 10 章 \ 程 序 \ 程 序 10- 八 物理 平台 \kernel\APIC.c 


//TPR 
_asm _ volatile ( 
"movd SOx808 ， $$Srcx NniNE™ 
"rdmsr NnN\C 2 
:"=a" (x), "=d" (y) 
:"memory"); 


Color_printk (GREEN, BLACK, "Set LVT TPR:%#010x\t",x); 


/ /PPR 
_asm _ volatile ( 
"movd $0x80a, $$Srcx \n\t" 
"rdmsr NN 
i" (Kd "(yy) 
: "memory"); 


Color_printk (GREEN, BLACK, "Set LVT PPR:%#010x\n",x); 


代码 清单 10-6 的 获取 过 程 与 上 述 几 段 代 码 十 分 相似 ， 此 处 将 不 再 过 多 歼 述 。 在 完成 Local APIC 设 
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备 的 初始 化 工作 后 ， 为 了 使 Local APIC 只 处 理 VO APIC 发 送 来 的 中 断 消 息 ， 这 里 还 需要 屏蔽 类 8259A 


中 断 控 制 器 ， 


它 的 屏蔽 过 程 已 在 APIC 设 备 (包括 Local APIC 与 IJO APIC ) 的 初始 化 函数 


APIC_IOAPIC_init 中 实现 ， 详 情 请 参见 代码 清单 10-7。 


代码 清单 10-7 


第 10 章 \ 程 序 \ 程 序 10-1\ 物 理 平台 \kernel\APIC.c 


Volid APIC_IOAPIC_ init() 


{ 


// init trap abort fault 
Tt 


for(i = 32;i < 56;i++) 


{ 


set_intr gate(i ,， 2 ,， interrupt[i - 32]); 


} 


//mask 8259A 
color_printk (GREEN, BLACK, "MASK 8259A\n"); 
io_out8 (0x21, 0xff); 

io_out8 (0xal, Oxff); 


//ini 
Local 


t local apic 
_APIC_init(); 


//enable IF eflages 
sti(); 


} 


现在 ， 本 系统 可 驱动 类 8259A 和 Local APIC 两 种 中 断 控制 器 ,但 Symmetric IO 中 断 模式 不 允许 同 
时 使 用 它们 。 故 此 ， 我 们 特 在 内 核 主 程序 中 引入 了 条 件 预 编译 代码 ， 使 得 编译 器 在 编译 程序 时 可 动态 
间 定 操作 系统 使 用 的 中 断 控 制 器 ， 实 现 如 代码 清单 10-8。 


代码 清单 10-8 


#if APIC 
#include 
#else 
#include 
#endif 


#if A 
A 
#else 


第 10 章 \ 程 序 \ 程 序 10- 八 物理 平台 \kernel\main.c 


"APIC.h" 


"B25.9A..hY 


PIC 
PIC_IOAPIC_ init(); 


init_8259A(); 


#endi 


下 
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#if、#else、#endif 都 是 条 件 预 编译 关键 字 。#if 关 键 字 后 接 常量 表达 式 ， 如 果 常 量 表达 式 为 
真 〈 非 0 )， 则 将 #if 语 句 包含 的 程序 段 编 译 到 程序 中 。 如 果 常 量 表达 式 为 假 ， 则 将 #else 语 句 包 含 的 
程序 段 编译 到 程序 中 。 

因此 ， 代 码 清 单 10-8 的 主要 作用 是 根据 宏 常 量 APIC 的 值 ， 选 择 将 APIC_IOAPIC_init 函数 或 
init_8259A 函 数 添加 到 程序 中 , 并 进行 编译 链接 。 那么 , 宏 常 量 APIC 的 定义 值 就 决定 了 程序 的 走向 。 

细心 的 读者 可 能 会 好 奇 ， 宏 常量 APIC 的 定义 究竟 在 何 处 ?因为 纵 观 所 以 程序 源 文件 ， 都 未 曾 发 
现 宏 常 量 APIC 的 定义 。 其 实 ， 宏 常量 APIC 定 义 在 Makefile 文 件 中 ,代码 清单 10-9 是 宏 常 量 APIC 的 具 
体 定义 。 
代码 清单 10-9 ”第 10 章 \ 程 序 \ 程 序 10- 八 物理 平台 \kernel\Makefile 


县 工人 人 Te 


SYStem : head.o entry.o main.o printk.o trap.o memory.o interrupt.o PIC.otask.o cpu.o 
ld -b elf64-x86-64 -z muldefs -o System head.o entry.o main.o printk.o trap.o 
memory.o interrupt.o PIC.o task.o cpu.o -T Kernel.lds 


main.o: main.c 
gcce $(CFLAGS) -c main.c -DS$ (PIC) 


ifeq (S$ (PIC),APIC) 
RIO APLGCE 
gce $ (CFLAGS) -c APIC.c -Oo PIC.o 
else 
PIC.o: 8259A.c 
gcc $(CFLAGS) -c 8259A.c -oO PIC.o 
endif 


在 这 段 编译 脚本 命令 中 ， 代 码 PIC := APIC 的 意思 是 将 变量 PIC 定义 为 APIC。 在 编译 main.o 文 件 
时 ,使 用 -D 选 项 可 将 变量 PIC 展开 ， 即 -Ds$ (PIC) 展开 为 -DAPIC。 而 -D 选 项 的 作用 就 是 定义 宏 ， 其 定 
义 的 宏 名 紧 随 -D 之 后 ， 选 项 与 宏 名 间 无 需 空格 符 分 隔 ， 例 如 : -DAPIC 定 义 的 宏 名 是 APIC， 它 等 价 于 
在 程序 源 文件 中 编写 代码 #define APIC。 如 果 希 望 把 宏 常量 APIC 定 义 为 字符 串 "nel1lo"， 可 将 -D 
选项 书写 为 -DAPIC="\"hello\""， 它 等 价 于 在 程序 源 文件 中 编写 代码 #define APIC "hello"。 
为 了 连接 过 程 的 统一 化 ， 此 处 把 源 文件 APIC.c 和 8259A.c 统 一 编译 成 二 进 制 文件 PIC.o。 使 用 条 件 
判断 语句 ifea 可 达到 这 一 目的 ， 通 过 判断 PIC 变量 值 是 否 等 于 APIC 进 而 确定 PIC.o 的 编译 源 文件 。 
至 此 ，Local APIC 的 初始 化 编程 宣告 结束 ， 图 10-26 是 Local APIC 初 始 化 程序 的 运行 效果 。 
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b 


图 10-26 ”Local APIC 控 制 器 初始 化 效果 图 


尽管 Local APIC 尚 且 无 法 处 理 1/O 设 备 的 中 断 请 求 , 但 已 经 获取 到 它 的 相关 信息 仍 是 一 件 让 人 兴 
的 事情 。 趁 热 打铁 ， 马 上 就 来 初始 化 IO APIC 并 尝试 着 响应 键盘 按键 中 断 请 求 。 


10.4.3 ”1/O APIC 控制 器 的 初始 化 


在 编写 IO APIC 初 始 化 程序 前 ， 读 者 已 经 清楚 MO APIC 是 位 于 主板 芯片 组 中 的 一 个 控制 器 芯片 ， 
那么 IO APIC 的 使 能 过 程 就 不 会 像 Local APIC 那 样 仅 赁 配置 一 个 寄存 器 就 可 实现 。 通 常情 况 下 ， 必 须 
经 过 页 表 映 射 和 基地 址 寻 址 才能 实现 IO APIC 的 初始 化 。 

默认 情况 下 ， 系 统 上 电 后 的 IO APIC 处 于 关闭 状态 。 通 过 使 能 OIC 寄存 器 (Other Interrupt Control 
Register ) 的 第 8 位 可 开启 IO APIC。OIC 寄 存 吉 位 于 芯片 组 配置 寄存 器 的 31FEh-31FFh 偏 移 处 。RCBA 
寄存 器 (Root Complex Base Address Register ) 保存 着 芯片 组 配置 寄存 器 的 物理 基地 址 ， 它 位 于 PCI 总 
线 的 LPC 桥 控制 器 组 (第 31 号 设备 ) 的 F0h 偏 移 地 址 处 。 

因此 , 为 了 开启 IO APIC 就 必须 先 明确 芯片 组 型 号 ， 再 从 芯片 组 白皮书 中 查询 出 RCBA 和 OIC 寄存 
器 的 访问 方法 。 

口 查看 芯片 组 型 号 。 借 助 一 些 常用 的 硬件 检测 软件 ， 可 检测 出 物理 平台 选用 的 芯片 组 型 号 。 对 
于 本 书 使 用 的 Lenovo ThinkPad X220T 笔 记 本 而 言 ， 其 搭载 的 芯片 组 是 Intel QM67， 对 应 的 Intel 
官方 白皮书 文档 名 是 6-cjipset-c200-cjpipset-datasheet， 请 读者 根据 个 人 实际 情况 自行 检测 。 当 
准备 好 芯片 组 白皮书 后 ， 便 可 着 手 开 始 初始 化 IO APIC。 
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口 RCBA 寄 存 器 。RCBA 寄 存 器 是 一 个 位 于 LPC 桥 控制 器 组 中 的 4B 寄 存 器 ，LPC 桥 控制 器 组 是 PCI 
总 线 下 的 第 31 号 设备 ，RCBA 寄 存 涡 在 LPC 寄 存 带 组 的 FO0h 偏 移 处 。RCBA 寄 存 右 的 默认 值 是 
00000000h， 图 10-27 描 述 了 RCBA 寄 存 器 各 位 的 功能 。 
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RCBA 寄 存 器 使 能 标志 位 
图 10-27 RCBA 寄 存 器 的 位 功能 说 明 图 


RCBA 寄 存 右 的 第 0 位 是 RCBA 寄 存 器 的 使 能 标志 位 , 置 位 此 标志 位 将 允许 修改 芯片 组 配置 寄存 
器 的 物理 基地 址 。 第 14 位 ~ 第 31 位 保存 着 芯片 组 配置 寄存 器 的 物理 基地 址 ， 其 物理 地 址 必须 按 
16 KB 边界 对 齐 。 

口 OIC 寄 存 器 。OIC 寄 存 器 是 一 个 2 B 的 中 断 控 制 寄存 器 ， 通 过 它 可 以 开启 和 关闭 MO APIC。OIC 
寄存 器 位 于 芯片 组 配置 寄存 器 组 的 31FEh 地 址 偏 移 处 ， 而 芯片 组 配置 寄存 器 组 的 物理 基地 址 则 
由 RCBA 寄 存 器 指定 。 图 10-28 描 述 了 OIC 寄 存 器 各 位 的 功能 。 
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协 处 理 器 错误 使 能 标志 位 
IO APIC 使 能 标志 位 
图 10-28 ” OIC 寄存 器 的 位 功能 说 明 图 


OIC 寄存 器 的 默认 值 为 0000h， 以 下 是 OIC 各 寄存 器 位 的 功能 介绍 。 
上 APIC 映 射 区 域 (APIC Range Select )。APIC 映 射 区 域 (第 0~7 位 ) 决定 了 IO APIC 的 间接 访 
问 寄 存 器 映射 的 地 址 区 间 ， 只 有 在 禁用 IO APIC 的 情况 下 此 位 域 才 可 修改 。 
和 IIJO APIC 使 能 标志 位 (APIC Enable )。 置 位 此 标志 位 将 使 能 MO APIC， 对 其 复位 将 禁用 IO 
APIC。 
量 协 处 理 器 错误 使 能 标志 位 (Coprocessor Error Enable )。 置 位 协 处 理 吉 错误 使 能 标志 位 将 允许 
IRQ13 接 收 FERR# 中 断 请 求 。 
晶 初始 化 IO APIC 中 断 控 制 器 。 
在 掌握 上 述 世 片 组 寄存 器 的 功能 及 使 用 方法 后 ， 我 们 现 已 具备 足够 的 知识 来 编写 IO APIC 的 初始 
化 模块 。 下 面 依然 将 初始 化 程序 分 为 若干 个 片段 ， 逐 一 对 其 进行 讲解 。 
为 了 便于 访问 VO APIC 的 寄存 器 ， 此 处 定义 了 一 个 名 为 TOAPIC_map 的 结构 体 ， 用 它 来 记录 1/O 
APIC 的 间接 访问 寄存 器 的 线性 地 址 及 其 物理 基地 址 ， 详 细 定 义 请 参见 代码 清单 10-10。 
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代码 清单 10-10 ”第 10 章 \ 程 序 \ 程 序 10-2\ 物 理 平台 \kernel\APIC.h 


struct IOAPIC_map 


{ 


unsigned int physical address; 
unsigned char * virtual_index_ address; 
unsigned int * virtual_ data address; 
unsigned int * virtual_ EOI_ address; 


}ioapic_map; 

IOAPIC_map 结 构 体 中 的 pnysical_adgdress 成 员 变量 是 一 个 4 B 的 整 型 变量 , 它 保存 着 间接 访问 
寄存 器 的 物理 基地 址 , 其 他 三 个 成 员 变 量 分 别 记 录 着 间接 访问 寄存 器 的 索引 寄存 器 数据 寄存 器 和 EOI 
寄存 器 的 线性 地 址 。 这 些 成 员 变 量 将 在 IOAPIC_pagetable_remap 国 数 中 予以 初始 化 赋值 ， 这 个 函 
数 同 时 还 负责 把 间接 访问 寄存 器 的 物理 基地 址 映射 到 线性 地 址 空间 ， 代 码 清单 10-11 是 函数 


IOAPIC_pagetable_remap 的 程序 实现 。 


代码 清单 10-11 第 10 章 \ 程 序 \ 程 序 10-2\ 物 理 平台 \kernel\APIC.c 


void IOAPIC pagetable_ remap() 


{ 


unsigned long * tmp; 
unsigned char * IOAPIC addr = (unsigned char *)Phy To Virt (0xfec00000); 


ioapic map.physical_address = 0xfec00000; 


ioapic map.virtual_index_ address = IOAPIC addr; 
ioapic map.virtual_ data address = (unsigned int *) (IOAPIC addr + 0x10) ; 
ioapic map.virtual_EOI_address = (unsigned int *) (IOAPIC addr + 0x40) ; 


Global_CR3 = Get_gdt (); 


tmp = Phy_To_Virt (Global_CR3 + (((unsigned long)IOAPIC addr >> PAGE_ GDT_SHIFT) & 
Oxlff)); 

if (*tmp == 0) 

{ 
unsigned long * Virtual = kmalloc (PAGE 4K_SIZE,0); 
set_mpl4t (tmp,mk_mpl4t (Virt_To_Phy (virtual),PAGE KERNEL_ GDT)); 


color_printk (YELLOW,BLACK, "1:%#0181x\t%#0181lx\n", (unsigned long)tmp, (unsigned 
long)*tmp); 

tmp = Phy_To_Virt((unsigned long *) (*tmp & (~ OxfffUL)) + (((unsigned 
long)IOAPIC addr >> PAGE_1G_SHIFT) & 0xlff)); 

1 (n=:.0) 


{ 
unsigned long * Virtual = kmalloc (PAGE 4K_SIZE,0); 
set_pdpt (tmp,mk_pdpt (Virt_To_Phy (virtual),PAGE_ KERNEL Dir)); 


color_printk (YELLOW,BLACK, "2:%#0181lx\t%#018lx\n", (unsigned long)tmp, (unsigned 
long)*tmp); 


tmp = Phy_To_Virt((unsigned long *) (*tmp & (~ OxfffUL)) + (((unsigned 


10.4 中断 控制 器 的 模式 选择 与 初始 化 371 


long)IOAPIC addr >> PAGE 2M_ SHIFT) & Oxlff)); 
set_pdt (tmp,mk_pdt (ioapic map.physical_address,PAGE KERNEL Page | PAGE_PWT | 
PAGE_PCD) ) ; 


Color_printk (BLUE,BLACK, "3:%#0181lx\t%#0181lx\n", (unsigned long)tmp, (unsigned 
long)*tmp); 


Color_printk (BLUE,BLACK,"ioapic map.physical_ address:%#010x\t\t\n",ioapic_ map. 
physical_address); 

Color_printk (BLUE,BLACK,"ioapic map.virtual_address:%#0181lx\t\t\n", (unsigned 
long)ioapic map.virtual_index_ address); 


flush tlb(); 
} 


这 段 程 序 实现 的 页 表 映 射 过 程 与 帧 缓存 区 的 地 址 重 映射 过 程 十 分 相似 ， 即 通过 页 管理 机 制 把 物 
理 地 址 0xfec00000 映 射 到 线性 地 址 0xffff8000fec00000 人 处 ， 并 在 此 基础 上 对 指针 成 员 变 量 
virtual_index_address、virtual_data_address 以 及 virtual_EOI_address 进 行 线 性 地 
址 赋值 。 

当 ioapic_map 结 构 体 初始 化 完毕 后 ,我 们 可 将 RTE 寄 存 器 的 读 写 操作 抽象 为 ioapic_rte_read 
和 ioapic_rte_write 了 天数。 这 两 个 函数 的 定义 请 参见 代码 清单 10-12。 


代码 清单 10-12 ”第 10 章 \ 程 序 \ 程 序 10- 和 物理 平台 \kernel\APIC.c 


unsigned long ioapic rte read(unsigned char index) 


{ 


unsigned long ret; 


*ioapic map.virtual_index_address = index + 1; 
io_mfence(); 

ret = *ioapic map.virtual_ data_address; 

Et 2 


io_mfence(); 


*ioapic map.virtual_index_ address = index; 
io_mfence(); 
ret |= *ioapic map.virtual_ data address; 


io_mfence(); 


return ret; 


void ioapic rte write(unsigned char index,unsigned long value) 
{ 
*ioapic map.virtual_index_address = index; 
io_mfence(); 
*ioapic map.virtual data address = Value & Oxffffffff; 
Value >>= 32; 
io_mfence(); 


*ioapic map.virtual_index_address = index + 1; 
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} 


io_mfence(); 
*ioapic map.virtual_data _ address = Value & Oxffffffff; 
io_mfence(); 


由 于 RTE 寄 存 带 的 位 宽 是 64 位 ， 而 IOWIN 寄 存 带 的 位 宽 只 有 32 位 ， 所 以 必须 经 过 两 次 间接 读 写 访 
问 才 能 完成 对 RTE 寄 存 器 的 操作 。 而 且 ， 为 了 确保 原子 的 操作 间接 访问 寄存 器 ， 在 每 次 操作 间接 访问 
寄存 髓 后 都 使 用 io_mfence 函 数 进行 数值 同步 ， 也 就 是 说 ， 伴 随 着 这 两 个 函数 执行 结束 ， 间 接 访问 寄 


存 器 的 数值 已 与 目标 寄存 器 一 致 。 
io_mfence 辑 数 是 MFENCE 汇 编 指 令 的 简单 封装 ， 这 条 汇编 指令 用 于 串 行 化 处 理 器 的 执行 指令 
流 。 随 着 多 核 处 理 器 的 发 展 ， 为 了 提升 每 个 核心 的 流水 线 执行 效率 ， 处 理 器 核心 执行 指令 的 顺序 不 再 


是 串 行 的 ， 而 很 可 能 是 乱 序 的 ， 这 就 造成 了 先 写 人 内 存 的 数据 未 必 即 刻写 和 人 到 内 存 中 。 解 决 此 类 问题 
的 办 法 是 强迫 处 理 器 串 行 化 执行 ,如 果 使 用 LOCK 指 令 锁 住 系统 总 线 来 达到 此 类 目的 的 话 ， 则 会 降低 处 
理 需 的 执行 效率 。 故 此 处 理 器 加 入 了 新 的 串 行 化 指令 MFENCE， 这 条 指令 可 保证 在 不 影响 其 他 处 理 器 


核心 正常 运行 的 前 提 下 ， 使 此 前 的 读 写 操作 全 部 完成 。 此 外 ， 还 有 更 细 粒 度 的 LFENCE 和 SFENCE 指 令 
可 以 控制 读 和 写 操作 的 串 行 化 。( 详 见 Intel 官 方 白皮书 Volume 3 的 8.2 节 与 8.2.5 节 。) 

当 RTE 寄 存 器 的 读 写 函数 实现 后 ， 现 在 就 来 编写 MO APIC 的 初始 化 程序 。 初 始 化 过 程 将 涉及 IO 
APIC 基 础 信息 的 获取 和 设置 ， 还 有 RTE 寄 存 器 组 的 配置 ， 更 多 细节 请 参见 代码 清单 10-13。 


代码 清单 10-13 ”第 10 章 \ 程 序 \ 程 序 10- 和 \ 物 理 平台 \kernel\APIC.c 


voiqd IOAPIC_init() 


{ 


的 

// I/O APIC 

// I/O APIC ID 

*ioapic map.virtual_index address = 0x00; 

io_mfence(); 

*ioapic map.virtual_data_address = 0x0f000000; 

io_mfence(); 

color_printk (GREEN, BLACK, "Get IOAPIC ID REG:%#010x,ID:%#010x\n",*ioapic_ map. 
virtual_data address, *ioapic map.virtual data address >> 24 & 0xf); 

io_mfence(); 


// I/O APIC Version 

*ioapic map.virtual_index_address = 0x01; 

io_mfence(); 

Color_printk (GREEN, BLACK, "Get IOAPIC Version REG:%#010x,MAX redirection enties: 
S$#08d\n",*ioapic map.virtual_data address , ((*ioapic map.virtual_ data_ 
address >> 16) & 0xff) + 1); 


//RTE 
正光 区 (和 SE OXLONT 2 0X40N Lr FD) 
ioapic_ rte write(i,O0x10020 + ((i - 0x10) >> 1)); 


ioapic_rte write(0x12,0x21); 
color_printk (GREEN, BLACK, "I/O APIC Redirection Table Entries Set Finished.\n"); 
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函数 TOAPIC_init 首 先 会 将 1/O APIC ID 值 设置 为 0x0£000000， 并 把 VO APIC ID 值 、 版 本 值 和 
RTE 表 项 数 等 基础 信息 打印 在 屏幕 上 。 再 以 0x20 作 为 起 始 中 断 向 量 号 去 初始 化 各 个 RTE 表 项 ( 代码 
ioapic_rte_write(i,0x10020 + ((i - 0x10) >> 1));)。 最 后 ， 开 启 RTE1 表 项 来 接收 键盘 中 
断 请 求 ( 其 他 RTE 表 项 全 部 屏蔽 )， 并 将 其 封装 为 中 断 消息 投递 至 处 理 器 核心 ， 中 断 消息 的 向 量 号 为 
0x21、 投 递 模式 为 物理 模式 、 投 递 目标 的 APIC ID 号 为 0 (BSP 处 理 器 )。 

现在 ，ILO APIC 的 初始 化 函数 TOAPIC_init 已 经 实现 。 下 面 将 其 与 TOAPIC_pagetable_remap 
函数 整合 到 APIC 设 备 的 初始 化 函数 APIC_IOAPIC_init 中 , 并 完成 余下 的 初始 化 工作 , 代码 清单 10-14 
是 向 APIC_IOAPIC_init 函 数 追 加 的 程序 部 分 。 


代码 清单 10-14 第 10 章 \ 程 序 \ 程 序 10- 和 \ 物 理 平台 \kernel\APIC.c 


void APIC_IOAPIC_ init() 
{ 


// init trap abort fault 
Tn 和 

unsigned int x; 

unsigned int * p; 


IOAPIC pagetable remap(); 


//enable IMCR 
io_out8 (0x22, 0x70); 
TO OUtE8 (O23 0x0L): 


//init local apic 
Local_APIC_init(); 


//init ioapic 
IOAPIC_init(); 


//get RCBA address 

io_out32 (0xcf8,0x8000f8f£0); 

XO N32 (0XCrFe). 

Color_printk (RED,BLACK, "Get RCBA Address:%#010x\n",x); 
区 0XEEEESOOO:y 
Color_printk (RED,BLACK, "Get RCBA Address:%#010x\n",x); 


//get OIC address 
if(x > 0xfec00000 && x < 0xfee00000) 
{ 
p = (unsigned int *)Phy_To_Virt (x + 0x31feUL); 
} 


//enable IOAPIC 

XX = (*p: & Oxftffftf00) | Ox1003 
io_mfence(); 

*p = X; 
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io_mfence(); 


//enable IF eflages 
sti Ct}; 


这 有 段 程序 首先 调用 IOAPIC_pagetable_remap 国 数 为 操作 IO APIC 寄 存 器 组 做 铺 热 , 经 过 省 略 的 
中 断 向 量 表 初始 化 以 及 8259A 控 制 器 的 屏蔽 过 程 后 ， 通 过 设置 IMCR 寄 存 器 强制 使 处 理 器 只 接收 APIC 
的 中 断 请 求 信号 。 此 后 ， 就 是 对 Local APIC 与 1O APIC 设 备 的 初始 化 工作 。 由 于 IO APIC 的 使 能 过 程 比 
较 复杂 ， 所 有 它 的 使 能 代码 放 在 最 后 运行 。 

代码 io_out32 (0xcf8,0x8000f8f0) 的 作用 是 通过 间接 寻 址 方式 索引 到 RCBA 寄 存 器 ， 它 位 于 PCI 
总 线 的 第 31 号 LPC 桥 控制 器 组 的 F0h 偏 移 地 址 处 ， 即 位 于 PCI 总 线 0 的 31 号 设备 0 号 功能 的 FO0h 偏 移 处 ， 
RCBA 寄 存 器 的 地 址 计算 公式 ( 通过 IO 端口 间接 索引 PCI 总 线 上 的 设备 地 址 ) 为 0x80000000 | (0 << 16) 
| (31 << 11) | (0 << 8) (0xF0 & 0xfc) = 0x8000f8f0。 而 io_in32 (0xcfc) 的 作用 是 通过 
间接 寻 址 方式 读 取 RCBA 寄 存 器 的 值 。 将 RCBA 寄 存 器 的 值 加 上 0x31fe 就 得 到 了 OIC 寄存 器 的 物理 地 
址 ， 再 将 其 转换 为 线性 地 址 便 可 对 其 进行 访问 ， 这 就 是 代码 pb = (unsigneq int *)Phy_To_Virt (x+ 
0x31feUL) ;的 作用 。 最 后 通过 代码 x = (*p & 0xffffff00) | 0x100; 和 *p = x; 来 使 能 I/O APIC。 
时 不 要 忘记 使 能 正 标 志 位 。 
在 IO APIC 的 初始 化 过 程 中 ,我 们 已 设置 键盘 采用 边沿 触发 模式 向 IO APIC 发 送 中 断 请 求 ， 并 使 
用 中 断 描 述 符 表 IDT 的 0x21 号 中 断 向 量 进行 处 理 。 为 了 验证 运行 效果 , 我 们 特 将 ao_IRo 函 数 修改 为 代 
码 清 单 10-15 的 样子 。 


代码 清单 10-15 ”第 10 章 \ 程 序 \ 程 序 10- 和 \ 物 理 平台 \kernel\APIC.c 


void do_IRQO(struct pt_regs * regs,unsigned long nr) //regs:rsp,nr 


{ 


可 


unsigned char x; 


x = io_in8(0x60); 
color_printk (BLUE,WHITE," (IRQO:%S#04x) \tkey code:%#04x\n",nr,x); 


_asm _ volatile _( "movd SOxX00 ， 多 委 工 QX nN 
"mova $0Ox00, S$%Srax NNN 
"mova SOx80b， SSrcx NNE” 
"wrmsr NENEY 
::: "memory" ) ; 


} 

敲 击 键盘 按键 ， 如 果 键 盘 的 中 断 消 息 能 够 投递 到 Local APIC 并 被 CPU 处 理 ,那么 ao_IRo 函 数 就 能 
读 取 到 键盘 扫描 码 ， 从 而 在 屏幕 上 打印 中 断 向 量 号 和 键盘 扫描 码 。 然 后 ， 向 Local APIC 的 EOI 寄 存 器 
写 人 数值 00 以 通知 控制 器 中 断 处 理 过 程 结 束 。 

至 此 ，Local APIC 与 IO APIC 设 备 的 初始 化 过 程 结 束 ， 图 10-29 记 录 了 两 者 的 初始 化 运行 效果 。 
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| 0000010f 


)000000000010f 


J0000000000000. 


图 10-29 JIO APIC 控 制 器 初始 化 效果 图 
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目前 ， 本 系统 的 中 断 处 理 功 能 已 略 显 锥 形 ， 但 它 尚 未 达到 整体 结构 化 的 水 平 ， 从 而 无 法 给 外 设 驱 
动 程序 提供 统一 的 应 用 接口 ， 比 如 ， 中 断 处 理 程序 的 注册 接口 ， 通 用 的 中 断 启 动 、 应 答 、 禁 止 等 基础 
- 以 及 更 复杂 的 中 断 上 半 部 和 中 断 下 半 部 处 理 功能 等 。 可 见 ， 中 断 处 理 功 能 也 拥有 着 庞大 的 
， 使 其 可 提供 丰富 的 接口 和 处 理 机 制 来 满足 各 种 设备 驱动 处 理 中 断 请 求 。 

2 但 这 并 不 耽误 我 们 了 解 先进 的 架构 ， 而 且 在 掌握 它 的 同 
时 还 能 够 给 今后 的 功能 设计 与 实现 带 来 帮助 ， 百 利 而 无 一 害 。 

下 面 将 对 Linux 内 核 的 中 断 人 处 理 机 制 予 以 介绍 ， 并 参考 其 设计 理念 为 本 系统 实现 结构 化 的 中 断 处 
理 单元 ， 即 实现 中 断 处 理 程序 的 注册 、 中 断 上 半 部 处 理 等 功能 。 


10.5.1 Linux 的 中 断 处 理 机 制 概述 


Linux 内 核 作为 开源 系统 内 核 的 典范 ， 如 今 已 广泛 应 用 到 各 个 行业 领域 。 它 为 了 及 时 响应 并 快速 
外 理 名 关 设 备 的 中 断 请 求 ， 便 将 中 断 处 理 单 元 拆 分 为 上 下 两 部 分 ， 即 中 断 上 半 部 和 中 妖 下 半 部 、 
中 断 上 半 部 用 于 获取 处 理 中 断 请 求 所 必需 的 数据 和 信息 ， 并 快速 向 中 断 控制 器 发 送 应 答 通知 ;而 
中 断 下 半 部 则 会 对 上 半 部 获取 的 数据 和 信息 做 进一步 处 理 ， 以 完成 每 个 中 断 请 求 。 此 举 通过 中 断 上 半 
部 快速 应 答 中 断 请 求 ， 加 快 了 中 断 请 求 的 接收 速度 ， 进 而 缩短 后 续 中 断 请 求 的 等 待 时 间 ， 再 通过 中 断 
下 半 部 的 多 种 处 理 机 制 ， 使 得 用 户 可 以 快速 实现 不 同 种 中 断 处 理 过程 。 图 10-30 描 绘 了 自 Linux 2.4 以 来 
的 常用 中 断 处 理 机 制 。 
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中 疡 上 于 部 ' 中 晰 下 于 部 
| 
| 
CPUE 取得 中 断 向 此 号 : 
tasklet_hi schedulecO: (tasklet 处 理 程序 激 汪 汕 数 ) | WORK QUEUE ( [人 作 队 询 ) 
tasklel : ee eg (tasklet 处 理 程序 激 诈 摧 数 ) 
0 下 人 Be eh 中 岂 上 时 工 作 | events 内 核 线 程 二 调用 工作 队列 的 处 理 郊 数 funcO: 
rp schedul ruet wwork_structy 《工作 队列 处 更 程序 流 活 基数 ) | 
发 送 EOI 济 生 raise_soflirqO): A 由 新 处 唱和 4 激活 亲 数 ) | 
估 过 Pe: 


理 机 制 的 关键 性 函数 调用 为 导向 ， 
性 介绍 。 

口 中 断 上 半 部 。 中 断 上 半 部 主要 
使 处 理 器 可 以 再 次 接收 中 断 请 求 。 整 个 处 理 过 程 的 关键 步 又 如 下 所 示 。 


上 下 半 部 功能 的 概括 


SOFT [RQ ( 软 中 断 处 理 程 序 入 11) 


do_soflirq0:Y (struct softirqd_action)sontird_vcclnrl->action0: 一 一 


tasklet_action 


A 
tasklet(tasklet 她 理 程序 入 11) 
[= uct tasklet_ struct)tasklet_vec->funcO): 


| 
上 


| tasklettasklet 处 理 程 这 入 11) 
iol 


BH (BH 处 坚 积 序 入 [1) 1 


ma| (struct tasklet_structtasklet_ hi_vec[nr]->funcO: | bh_basc[nr|O: 


| 
J 


负责 完成 关键 性 数据 的 扩 


(1) 中 断 请 求 信号 发 送 至 处 理 器 , 处 理 器 根据 中 断 向 量 
请 求 的 IDT 表 项 。 


(2) 处 理 絮 根据 IDT 表 项 ( 门 描述 符 ) 的 配置 尔 定 中 断 处 天 
随后 从 中 断 处 天 
(3) 处 理 咒 沿 着 中 断 处 理 程序 人 口 执行 ， 将 进入 统 
1 其 处 理 函 数 ao_IRO 首 先 会 从 栈 中 取得 中 断 向 量 号 (由 中 
内 )， 随 后 调用 handle_ira 函 数 (Linux 2.6 以 前 命名 为 handqle_I 


栈 空间 ， 


(4) 


半 部 处 理工 作 。 


(5) handqle_irq 函 数 
实现 设备 控制 、 


处 理 过 程 并 未 

(6) 向 
口 中 断 下 半 部 。 
断 下 半 部 处 理 栅 
部 处 理 程序 。 


上 断 控 制 器 发 送 应 答 通知 ( 
一 旦 中 断 上 半 部 的 


程序 人 口 处 开 


会 调用 注册 中 断 时 提供 


始 执行 。 


图 10-30 Linux 的 中 断 处 理 机 制 示意 医 


图 10-30 绘 制 了 Linux 内 核 从 处 理 器 接收 中 断 请 求 到 中 断 处 理 结束 的 整个 过 程 ， 
阐述 了 中 断 上 下 半 部 以 及 各 种 中 断 处 理 机 制 间 的 关系 。 以 下 是 中 断 


Linux 2.5 记 淘汰 


此 话 


入 


以 各 类 中 断 处 


赴 获 ， 并 快速 向 请 求 设备 发 送 应 


答 通知 ， 


号 从 中 断 描述 符 表 IDT 中 索引 出 处 理 中 断 


的 中 源 


数据 传输 ， 甚 至 进 
规定 各 类 中 断 处 理 机 


EOI 消 , 


判 的 激活 位 置 ， 


的 中 


青 求 处 理 方法 。 在 
步 激活 软 中 汤 、tasklet 以 及 工 


此 处 只 


吓 ， 那 么 在 中 断 上 半音 


各 类 中 断 处 理 机 制 的 特性 。 


口 软 中 断 处 理 机 制 。 


软 中 断 处 理 机 香 


执行 的 尾声 ， 


| 是 中 断 下 半 部 的 第 一 层 处 至 


程序 人 


断 人 处 理 阴 数 do_ 工 


机 制 ，; 


通 去 


口 ， 并 将 任务 执行 现场 保存 到 


RQ 处 理 中 断 请 求 。 
断 处 理 程 序 入口 代码 压 和 人 栈 
RO_event ) 执行 中 断 上 


! 其 请 求 处 理 方法 中 ， 可 
作 队 列 等 功能 。 由 于 中 晰 
4 是 激活 它们 的 常见 位 置 。 

息 ) 以 表明 中 断 请 求 处 理 完毕 。 

断 处 理 方法 nandler 激 活 了 软 中 汤 、tasklet、 
通过 调用 ao_softira 函 数 进 入 
中 断 下 半 部 处 理 程序 将 依次 执行 软 中 断 、tasklet 或 BH 等 中 断 处 至 
events 内 核 线程 (可 能 存在 诸多 变种 内 核 线程 ) 执行 工作 队列 内 的 中 断 处 弄 


工作 队列 等 中 
! 肌 下 半 


机 制 ， 或 者 通过 
程序 。 以 下 内 容 是 


过 中 断 上 半 部 结尾 处 


的 do_softirqg 函 数 进入 中 断 下 半 部 的 软 中 断 处 理 过 程 。 由 于 软 中 断 处 理 过 程 中 没有 类 似 锁 的 


机 制 来 限制 中 断 处 理 程序 的 并 发 执行 ， 从 而 使 得 软 
同类 型 的 软 中 断 也 可 以 。 因 此 ， 软 中 断 处 理 机 种 


! 靳 可 在 所 有 人 处 开 
1 实现 了 多 核 处 理 带 下 的 并 行人 处理。 


器 中 同时 执行 ， 即 使 相 
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软 中 断 的 处 理 队 列 是 一 个 由 32 个 成 员 组 成 的 静态 数组 , 因此 最 多 只 能 静态 定义 32 种 类 型 的 软 
断 。 软 中 断 通 常 保留 给 系统 中 对 时 间 要 求 最 严格 、 苟 刻 的 中 断 处 理 程序 使 用 。 

口 tasklet 处 理 机 制 。tasklet 处 理 机 制 是 中 断 下 半 部 的 第 二 层 处 理 机 制 ， 通 过 软 中 断 的 TASKLET 

SOFTIRQ 或 HL_SOFTIRQ 优 先 级 便 可 进入 tasklet 处 理 过 程 。 
tasklet 处 理 机 制 与 软 中 断 相 比 ， 在 时 间 要 求 上 可 以 适当 宽松 。 而 且 ，tasklet 的 处 理 队 列 是 一 个 
由 单 向 链表 组 成 的 结构 体 ， 这 让 tasklet 拥 有 动态 创建 和 使 用 的 能 力 ， 同 时 也 消除 了 队列 长 度 的 
限制 。 
在 tasklet 的 处 理 过 程 中 包含 有 类 似 锁 的 机 制 , 但 是 tasklet 对 锁 的 要 求 并 不 高 , 它 不 允许 同时 执行 
相同 类 型 的 任务 ,但 却 允 许 不 同类 型 的 tasklet 任 务 在 不 同 的 处 理 器 上 同时 执行 。 使 用 
tasklet_action 和 tasklet_hi_action 国 数 可 激活 tasklet 处 理 机 制 ， 这 两 个 函数 不 仅 会 将 
处 理 程序 链接 进 tasklet 处 理 队 列 ， 同 时 还 会 激活 软 中 断 的 TASKLET_SOFTIRQ 或 HL_ SOFTIRQ 
优先 级 处 理 队列 。 

口 BH (Bottom Half) 处 理 机 制 。 BH 处理 机 制 对 锁 的 要 求 比较 高 ， 它 在 同一 时 间 内 只 允许 执行 
一 个 任务 。 由 于 软 中 断 和 tasklet 处 理 机 制 完全 可 以 取代 BH 处 理 机 制 ， 所 以 从 Linux 2.5 后 BH 处 
理 机 制 已 经 淘汰 。 

口 工作 队列 处 理 机 制 。 工 作 队列 处 理 机 制 是 一 种 独特 的 中 断 延 迟 处 理 方式 ， 它 可 以 把 中 断 处 理 
程序 推迟 到 中 断 处 理 结束 ( 包括 中 断 上 半 部 和 中 断 下 半 部 ) 之 后 ， 再 以 内 核 线 程 的 方式 在 进 
程 上 下 文中 处 理 。 
工作 队列 是 一 个 由 双向 链表 组 成 的 结构 体 ,， 这 使 得 工作 队列 同样 具备 动态 创建 和 使 用 的 能 力 。 
而 且 , 由 于 工作 队列 运行 于 内 核 线程 中 ， 因 此 工作 队列 可 在 处 理 中 断 的 过 程 中 睡眠 ， 这 一 点 是 
软 中 断 和 tasklet 处 理 机 制 无 法 实现 的 。 


10.5.2 ”实现 中 断 上 半 部 处 理 功 能 


根据 目前 内 核 所 拥有 的 功能 , 实现 中 断 上 半 部 处 理 功 能 是 可 行 的 。 其 实 , 中 断 上 半 部 的 功能 不 多 ， 
我 们 此 前 已 基本 实现 ， 只 不 过 还 没有 将 这 些 代码 进行 更 结构 化 的 抽象 。 

作为 结构 化 中 断 处 理 过程 的 第 一 步 ， 则 是 要 为 中 断 处理 过 程 定义 结构 体 iraq_desc_T， 它 用 于 记 
录 处 理 中 断 时 所 必须 的 信息 ， 代 码 清 单 10-16 是 该 结构 体 的 完整 定义 。 


代码 清单 10-16 第 10 章 \ 程 序 \ 程 序 10-3\ 物 理 平台 \kernel\interrupt.h 


typedef struct { 
hw_int_controller * controller; 


char * irqg_name; 
unsigned long parameter; 
void (*handler) (unsigned long nr, unsigned long parameter, struct pt_regs * regs); 
unsigned long flags; 
}iro .desc Ts 


#define NR_IRQS 24 


irgq_desc_T interrupt_desc[NR_IRQS] = {0}; 
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表 10-20 描 述 了 
索引 中 断 处 理 程序 ， 


而 parameter 成 员 变 


结构 体 irq_desc_T 各 个 成 员 变 量 的 功能 
量 则 为 中 断 处 理 程序 提供 必要 的 参数 。 


1 的 函数 指针 成 员 变量 handler 用 


于 


表 10-20 ”irq_desc_T 结 构 体 成 员 变 量 说 明 表 
序号 成 员 变 量 名 功能 描述 
1 controller 中 断 的 使 能 、 禁 止 、 应 答 等 操作 
2 irq_name 中 断 名 
3 parameter 中 断 处 理 函 数 的 参数 
4 handler 中 断 处 理 函 数 
5 flags 自 定 义 标志 位 


代码 清单 10-16 不 光 定 义 了 中 断 处 理 过 程 


结构 体 ira_desc_T， 还 为 RTE 表 中 的 全 部 表 项 实例 化 了 


这 个 结构 体 。controller 是 irq_desc_T 结 构 体 中 最 为 复杂 的 成 员 变 量 ， 它 为 中 断 处 理 过 程 提 供 了 
一 组 操作 接口 。 代 码 清单 10-17 是 nw_int_type 结 构 体 的 详细 定义 。 
代码 清单 10-17 第 10 章 \ 程 序 \ 程 序 10-3\ 物 理 平 台 \kernel\interrupt.h 
typedef struct hw_int type 
起 
void (*enable) (unsigned long irqg); 
void (*disable) (unsigned long irq); 
unsigned long (*install) (unsigned long irqg,void * arg); 
void (*uninstall) (unsigned long irq); 
void (*ack) (unsigned long irq); 
}hw_int_controller; 
结构 体 nw_int_type 定 义 了 中 断 使 能 、 禁 止 、 安 装 、 印 载 、 i (函数 指针 )， 它 们 
为 操作 中 断 控制 器 带 来 了 方便 ， 表 10-21 是 上 述 操 作 接 口 的 功能 介 
表 10-21 hw_int_type 结 构 体 成 员 变 量 说 明 表 
序号 成 员 变 量 名 功能 描述 
1 enable 使 能 中 断 操作 接 
2 disable 禁止 中 断 操作 接 
3 install 安装 中 断 操 作 接 
4 uninstall 纯 载 中 断 操 作 接 
5 ack 应 答 中 断 操作 接 
现 已 为 本 系统 编写 了 一 些 和 常用 中 断 处 理 函数 ,通过 它们 可 组 建 出 hw_int_type 结 构 体 ,这些 中 断 


处 理 函数 的 定义 位 于 APIC.c 文 件 内 ， 其 实现 过 程 比较 简单 ， 


既然 结构 体 和 操作 接口 处 理 函 数 已 经 准备 妥当 
先 ， 在 APIC_IOAPIC_init 函 数 中 清 
实现 。 


， 下 夯 


| 就 对 interrupt_desc 数 组 进行 初始 化 。 首 
除 int orzupt_desc 数 组 里 的 数据 ， 此 过 程 由 代码 清单 10-18 负 


请 读者 自行 阅读 。 
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代码 清单 10-18 ”第 10 章 \ 程 序 \ 程 序 10-3\ 物 理 平台 \kernel\interrupt.c 
void APIC_IOAPIC_init() 


memset (interrupt_desc,0,sizeof (irqg desc_T)*NR_IRQOS); 


//enable IF eflages 
St (hy 
} 


当 interrupt_desc 结 构 体 数组 初始 化 完毕 后 ， 下 一 步 将 在 其 基础 上 设计 出 中 断 注 册 函 数 
register_irq, 它 的 作用 是 根据 中 断 向 量 号 将 中 断 处 理 函 数 、 参 数 以 及 相关 结构 和 数据 赋值 到 对 应 
的 ijrq_gesc_T 结 构 体内 。 代 码 清 单 10-19 是 中 断 注册 函数 register_ira 的 具体 实现 。 


代码 清单 10-19 ”第 10 章 \ 程 序 \ 程 序 10-3\ 物 理 平台 \kernel\interrupt.c 


int register_irq(unsigned long irgqg, 
void * arg, 
void (*handler) (unsigned long nr, unsigned long parameter, struct pt_regs * regs), 
unsigned long Parameter， 
hw_int_ controller * controller., 
char * irqgq name) 


irqg desc T * p = &interrupt_desc[irqg - 32]; 


p->controller = controller; 
p->irqgq name = irg_name; 
p->parameter = parameter; 
BB->ftlLads ee 0 

p->handler = handler; 


p->controller->install (irqg,arg); 
p->controller->enable (irq); 


return 1; 

} 

鉴于 本 系统 为 W/O APIC 分 配 的 中 断 向 量 号 是 32~55， 因 此 必须 将 中 断 向 量 号 减 32 才 能 正确 索引 到 
ircL_desc_T 结 构 体 数组 的 元 素 。 随 后 ， 中 断 注册 函数 再 将 传人 的 参数 赋值 到 ira_desc_T 结 构 体 的 
各 个 成 员 变量 中 ,并 调用 hw_int_type 结 构 体 的 中 断 安装 和 中 断 使 能 操作 接口 ,使 处 理 器 可 以 正常 接 
收 并 处 理 目 标 设备 的 中 断 请 求 。 

了 解 中 断 注册 函数 后 ， 读 者 应 该 能 猜测 出 中 断 注 销 函 数 的 实现 过 程 ， 它 的 执行 过 程 恰恰 与 中 断 注 
册 过 程 相反 。 代 码 清单 10-20 是 中 断 注销 函数 unregister_irg 的 代码 实现 。 


代码 清单 10-20 ”第 10 章 \ 程 序 \ 程 序 10-3\ 物 理 平台 \kernel\interrupt.c 


int unregister_irgq(unsigned long irq) 


{ 


irqg desc T * p = &interrupt_desc[irqg - 32]; 
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p->controller->disable(irqg); 
p->controller->uninstall (irq); 


p->controller = NULL; 
p->irg_name = NULL; 
p->parameter = NULL; 
B= ladgs’ ee 0 
p->handler = NULL; 
return 1; 


} 
中 断 注 销 函数 的 程序 实现 非常 


容易 理解 ， 它 根据 


! 断 向 量 号 推算 出 ira_gqesc_T 结 构 体 数组 的 元 


素 ， 再 执行 该 结构 体 成 员 预 设 的 中 断 禁 止 和 中 断 皂 载 操作 接口 。 最 后 ， 清 空 ira_dqesc_T 结 构 体 各 个 
成 员 变量 的 数据 。 

在 完成 了 结构 化 的 中 断 注 册 与 注销 函数 后 ,下面 将 对 中 断 处 理 过 程 进行 升级 完善 。 代 码 清 单 10-21 
在 原 有 中 断 处 理 函 数 qao_IRo 的 基础 上 ， 引 入 了 结构 化 的 设计 理念 ， 使 得 它 可 直接 调用 irq_qesc_T 结 
构 内 预 设 的 中 断 处 理 函 数 和 中 断 应 答 操 作 接口 。 代 码 清 单 10-21 是 Go_IRO 函 数 升级 后 的 样子 。 
代码 清单 10-21 第 10 章 \ 程 序 \ 程 序 10-3\ 物 理 平台 \kernel\APIC.c 


void do_IRQO(struct pt_regs * regs,unsigned long nr) 
{ 
unsigned char x; 


irqg desc T * irqg = &interrupt_desc[Ilnr - 32]; 


//regs:rsp,nr 


x = io_in8(0x60); 
color_printk (BLUE,WHITE," (IRO:%#04x) \tkey code:%#04x\n",nr,x); 
if(irgq->handler != NULL) 
irq->handler (nr,irgq->parameter,regs); 
if(irgq->controller != NULL && irgq->controller->ack != NULL) 
irq->controller->ack (nr); 
_asm _ volatile _  ( 
"movd SOxX00， 多 委 工 QX NAN 
"movd $0Ox00, SSrax WIEN 
"movd SOx80Db， SEIrCcx NA 七 
"wrmsr NiiNE” 
:: "memory"); 
} 
这 段 程序 通过 代码 irgq->hnandler (nr,irgq->parameter,regs) ;执行 


! 靳 上 半 部 处 理 程序 ， 而 


) ; 则 用 于 向 中 断 控 制 器 发 送 应答 消 息 。 图 


代码 ira- >controller->ack (nr) 
元 的 运 云 行 效果 。 


10-31 是 高 级 中 断 


处 理 单 
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由 于 系统 内 核 的 基础 功能 仍 在 逐步 建 


Of4,bi 


16b0e0 


init 


图 10-31 高 级 中 断 处 


E 程 序 意犹未尽 的 读者 来 说 ， 你 们 不 必 着 急 ， 下 一 章 将 在 高 级 中 断 处 理 和 


于 玩 转 中 靳 处 型 


为 通用 输入 输出 设备 编写 驱动 程序 。 


晶 单 元 运行 效果 图 


设 中 ,其 仅 有 的 功能 暂且 无 法 实现 


P 断 下 半 部 处 理 过 程 。 对 


元 的 基础 上 ， 


设备 驱动 程序 


经 过 第 10 章 对 高 级 中 断 处 理 单元 的 学 习 ， 想 必 各 位 读者 一 定 想 找 儿 款 功能 简单 的 外 部 设备 小 试 牛 
刀 。 那 么 本 章 就 来 满足 各 位 读者 的 愿望 ， 实 现 键盘 、 鼠 标 以 及 IDE 硬 盘 的 设备 驱动 程序 。 如 此 一 来 ， 
不 但 可 以 验证 APIC 设 备 的 功能 设置 和 高 级 中 断 管理 单元 的 运行 逻辑 , 还 可 使 操作 系统 具备 更 加 完善 
输入 输出 以 及 存储 能 力 。 

本 章 将 涉及 键盘 、 鼠 标 控制 器 的 配置 ， 键 盘 扫 描 码 的 解析 ， 鼠 标 数据 包 格 式 的 解析 ， 硬 盘 控制 器 
协议 的 使 用 等 知识 点 。 闲 话 少 叙 ， 现 在 就 进入 本 章 内 容 的 学 习 。 


11.1 键盘 和 鼠标 驱动 程序 


早 在 第 4 章 就 已 初步 实现 了 键盘 驱动 程序 。 但 当时 尚未 对 键盘 控制 器 的 功能 或 原理 进行 过 多 描 
述 ， 仅 提 及 Intel 8042 键 盘 控制 器 的 读 写 方式 和 键盘 扫描 码 等 知识 。 

对 于 键盘 控制 器 而 言 ， 它 不 仅 可 以 控制 键盘 设备 ， 同 时 它 还 有 诸多 富余 引 脚 可 控制 其 他 设备 或 功 
能 ， 鼠 标 控制 器 就 是 依附 于 键盘 控制 器 的 子 设备 。 

本 节 将 会 对 键盘 及 鼠标 控制 絮 进 行 讲解 ， 并 实现 键盘 和 鼠标 设备 驱动 程序 、 键 盘 扫 描 码 解析 功能 
和 鼠标 协议 解析 功能 。 


11.1.1 键盘 和 鼠标 控制 器 


键盘 和 鼠标 作为 电脑 的 基础 输入 设备 ， 已 经 伴随 着 电脑 的 发 展 ， 历 经 了 很 长 一 段 时 间 。 由 于 键盘 
的 按键 数量 过 于 庞大 ， 从 而 无 法 像 单 片 机 的 按键 那样 通过 微 动 开关 和 去 抖动 电路 ， 直 接 将 其 连接 到 处 
理 器 〈 或 中 断 控制 器 ) 的 中 断 请 求 引 脚 。 同 理 ， 和 鼠标 设备 也 不 能 使 用 这 种 方式 向 处 理 带 发 送 数 据 ， 它 
们 都 必须 借助 控制 器 才能 向 处 理 器 发 送 中 断 请 求 和 数据 。 

对 于 现代 电脑 来 说 ， 其 主板 中 都 集成 有 Intel 8042 键 盘 控制 器 或 兼容 芯片 ， 该 芯片 不 光 用 于 控制 键 
盘 设 备 ， 还 控制 着 A20 地 址 线 的 开启 、 系 统 重启 以 及 操作 鼠标 控制 器 等 功能 。 图 11-1 示 意 出 了 8042 键 
盘 控制 器 的 整体 结构 。 


LS 


的 
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IO 端口 60/64 键盘 控制 器 
半 控 制 | 开放 A20 
CPU 8042 和 [一 条 综 富 包 
IOR RR 一 一 一 一 一 一 
IOW (一 一 一 一 一 一 鼠标 
品行 连接 
8bit © ) 
a 串 行 连接 
中 断 控制 加"ROW) 
图 11-1 ”8042 键 盘 控 制 占 的 整体 结构 示意 图 
到 11-1 涵 盖 了 Intel 8042 键 盘 控 制 器 支持 的 常用 功能 , 大 体 上 可 分 为 8042 控 制 器 、 键 盘 控制 器 ( PS/2 
接口 )、 鼠 标 控制 器 (PS/2 接 口 ) 三 部 分 ， 下 面 将 对 它们 逐一 进行 讲解 。 
1. Intel 8042 键 盘 控 制 器 
ee pa 已 还 拥有 几 组 用 于 控制 诸如 A20 地 址 


线 、 系 统 重启 、 
能 
@ Intel 8042 键 盘 控 制 


幕 颜色 、 扩 展 内 存 等 功能 


器 的 操作 端口 
端口 0x60 和 0x64 都 是 1 B 的 双向 读 


写 IO 端 


的 引 脚 ， 


通过 IO 端 


端口 0x60 和 0x64 可 访问 8042 键 盘 控 制 絮 ， 


口 地 址 ， 它 们 不 光 可 向 Intel 8042 刍 盘 控 制 器 发 送 数 据 ， 


还 可 向 键盘 发 送 数据 。 由 于 LO 端口 的 数据 位 宽 有 限 ， 因 此 不 管 是 控制 Intel 8042 键 盘 控 制 锅 ， 还 是 控 
制 键盘 鼠标 ， 都 必须 采用 命令 加 参数 的 通信 方式 ， 详 细 的 端口 操作 说 明 如 表 11-1 所 示 。 
表 11-1 Intel 8042 键 盘 控 制 器 的 操作 端口 功能 说 明 表 
端口 读 / 写 名 称 功能 描述 
0x60 读 输出 缓冲 区 ”返回 键盘 扫描 码 或 8042 键 盘 控制 器 发 送 来 的 数据 而 
0x60 写 输入 缓冲 区 ”可 向 键盘 发 送 命令 ( 如 果 命 令 带 有 参数 ， 随 后 再 向 该 端口 发 送 参 数 ) ， 或 向 8042 
键盘 控制 器 发 送 命令 参数 
0x64 读 控制 器 状态 ”返回 8042 键 盘 控 制 器 的 状态 ， 其 各 位 功能 描述 如 下 。 
bit 7=1: 说 明 与 键盘 通信 时 发 生 奇偶 校 验 错误 ; 
bit 6=1: 说 明 接收 键盘 数据 超时 ; 
bit 5=1: 说 明 鼠 标 输出 缓冲 区 已 满 ; 
bit 4=0: 禁止 键盘 ; 
bit 3: 记录 上 次 操作 的 端口 号 ( 键盘 控制 器 内 部 使 用 ) ，1 为 0x64 端 口 ，0 为 0x60 
端口 ; 
bit 2=1: 说 明 控 制 器 已 完成 自 检 ; 
bit 1=1: 说 明 键 盘 输入 缓冲 区 已 满 ; 
bit 0=1: 说 明 键 盘 输出 缓冲 区 已 满 
0x64 写 控制 器 命令 “向 8042 键 盘 控 制 器 发 送 控制 命令 
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系 


统 可 通过 向 IO 端口 0x64 发 送 1 B 的 控制 命令 操作 8042 键 盘 控 制 器 ， 如 果 该 命令 需要 附加 参数 ， 


则 再 向 IO 端 


出 鼠标 的 D4h 命 令 、 


口 0x60 发 送 命令 数值 。 对 于 某 些 返 回应 答 数据 的 控制 命令 ， 其 应 答 数据 将 发 往 端口 0x60。 
表 11-2 已 列举 出 常用 的 控制 命令 ， 其 中 就 包括 用 于 控 人 


mn 


控制 外 围 端口 的 输入 输出 命 


令 以 及 测试 端口 命令 。 
表 11-2 Intel 8042 键 盘 控 制 器 的 常用 控制 命令 表 
命令 参数 返回 值 功能 描述 
20h 无 有 读 取 键盘 的 配置 值 
60h 有 无 向 键盘 发 送 配置 命令 ， 配 置 值 (参数 ) 各 位 的 功能 如 下 。 
bit 7=0: 0 
bit 6=1: 在 扫描 码 存 入 输入 缓存 区 前 ， 将 其 转换 为 第 一 套 扫描 码 ; 
bit 5=0: 使 能 鼠标 设备 ; 
bit 4=0: 使 能 键盘 设备 ; 
bit 3=0: 0 
bit 2=1: 通知 系统 已 完成 热 启动 测试 及 初始 化 ; 
bit 1=1: 使 能 鼠标 中 断 IRQ12 ( MIBF ) ; 
bit 0=1: 使 能 键盘 中 断 IRQ1 (IBF ) 
A7h 无 无 禁止 鼠标 端 
Ag8h 无 无 开启 鼠标 端口 
A9h 无 有 鼠标 端口 自 检测 试 ， 返 回 值 00h 表 示 正 党 
AAh 无 有 控制 器 自 检测 试 ， 返 回 值 55h 表 示 正 党 
ABh 无 有 键盘 端口 自 检测 试 ， 返 回 值 00h 表 示 正 党 
ADh 无 党 禁止 键盘 通信 ， 自 动 复位 控制 器 状态 的 第 4 位 
AEh 无 无 开启 键盘 通信 ， 自 动 置 位 控制 器 状态 的 第 4 位 
COh 无 有 读 输 入 端口 P1 
DOh 无 有 读 输 出 端口 P2 
Dlh 有 无 写 输出 端口 P2 
D2h 有 无 巴 参数 写 入 到 键盘 缓冲 区 ， 就 如 同 从 键盘 收 到 数据 一 样 
D3h 有 无 也 参数 写 人 到 鼠标 缓冲 区 ， 就 如 同 从 鼠标 收 到 数据 一 样 
D4h 有 无 向 鼠标 设备 发 送 数 据 
EOh 无 无 读 测试 端口 P3 
FEh 无 无 系统 重启 
在 这 些 常 用 命令 中 ，20h 和 60h 命 令 是 控制 键盘 鼠标 必 备 的 命令 ， 而 命令 COh、D0h、D1lh、E0h 则 


用 于 控 人 
出 各 端口 


引 脚 的 功能 说 明 。 


制 输入 、 输 出 以 及 测试 端口 各 引 脚 的 状态 值 。 这 些 引 脚 ( Pin ) 的 功能 各 不 相同 ， 表 11-3 已 汇总 


11.1 键盘 和 鼠标 驱动 程序 385 


表 11-3 ”输入 /输出 和 测试 端口 各 引 脚 功能 


输入 端口 P1 (Port1) 输出 端口 P2 《Port2) 测试 端口 P3 (Port3) 
引 脚 功能 描述 引 脚 功能 描述 引 脚 功能 描述 
0 键盘 数据 0 系统 重启 0 键盘 时 钟 
1 鼠标 数据 1 A20 地 址 线 1 键盘 数据 
2 一 2 鼠标 数据 2 一 
3 二 3 鼠标 时 钟 3 二 
4 过 4 键盘 IBF 中 断 4 二 
5 -一 5 鼠标 IBF 中 断 5 一 
6 一 6 键盘 时 钟 6 二 
六 一 7 键盘 数据 7 = 


在 这 些 端口 引 脚 中 ， 本 系统 可 能 会 用 到 Port2 端 口 的 Pin0 和 Pin1 引 脚 ， 剩 余 引 脚 使 用 频率 非常 低 。 
这 两 个 引 脚 分 别 控制 着 系统 重启 功能 和 A20 地 址 线 。 

@ A20 地 址 线 功能 

早 在 第 4 章 已 经 对 A20 地 址 线 的 作用 和 开启 方法 进行 了 讲解 ， 并 用 代码 实现 了 一 种 快速 开启 A20 地 
址 线 的 方式 。 而 此 处 通过 拉 高 Port2 端 口 Pin1 引 脚 的 电 平 来 开启 A20 地 址 线 的 方式 ， 在 执行 速度 方面 相 
对 较 慢 ， 这 种 开启 方式 仅 供 读者 参考 ， 详 见 代 码 清单 11-1。 


代码 清单 11-1 开启 A20 地 址 线 的 示例 代码 


io_out8 (0x64, 0xD1); 
io_out8 (0x60,0xDF); 


@ 系统 重启 功能 
通过 拉 低 Port2 端 口 的 Pin0 引 脚 可 使 系统 重启 ， 或 者 向 W/O 端口 0x64 发 送 控 制 命令 FEh 来 重启 系统 ， 
代码 清单 11-2 是 第 二 种 方法 的 程序 实现 。 


代码 清单 11-2 重启 系统 的 示例 代码 

io_out8 (0x64, OxFE); 

2. 键盘 控制 器 
键盘 是 计算 机 的 一 种 重要 输入 设备 ， 它 的 工作 原理 是 通过 类 8048 键 盘 编 码 器 芯片 不 停 地 扫 摘 键盘 
上 的 每 一 个 按键 ， 一 旦 发 现 有 按键 被 按 下 或 抬 起 ，8048 键 盘 编 码 器 芯片 便 立即 将 按键 对 应 的 键盘 扫描 
码 发 送 至 类 8042 键 盘 控 制 器 。 而 类 8042 键 盘 控制 器 会 将 数据 解析 后 保存 到 输入 缓冲 区 中 ,并 触发 键盘 
按键 中 断 请 求 。 

正如 第 4 章 所 述 ，8048 键 盘 编 码 器 芯片 共 定义 三 套 不 同 格式 的 键盘 扫描 码 ， 现 代 键 盘 默 认 采 用 第 
二 套 键盘 扫描 码 ,但 为 了 兼容 以 前 的 XT 键 盘 ，8042 键 盘 控制 器 在 接收 到 键盘 扫描 码 后 ， 都 默认 将 其 转 
换 为 第 一 套 键盘 扫描 码 。 通 过 向 IO 端口 0x60 发 送 键盘 命令 可 修改 默认 的 键盘 扫描 码 。 

@ 键盘 命令 

Intel 8042 键 盘 控 制 器 为 我 们 准备 了 丰富 的 键盘 控制 命令 ， 这 些 命令 依然 通过 IO 端口 0x60 发 往 键 
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盘 控 制 器 。 如 果 命 令 需要 携带 参数 ， 则 紧 随 命令 之 后 参数 再 写 和 人 到 0x60 端 口 ， 


后 回 送 应 答 数据 ( 0xFA )。 表 11-4 已 罗列 出 常用 的 键盘 控制 命令 供 读者 使 用 。 
表 11-4 ”常用 键盘 控制 命令 表 


一 些 键盘 命令 


会 在 执行 


命令 参数 返回 值 功能 描述 
FFh 无 有 重启 键盘 
FEh 无 无 重新 发 送 上 一 字 节 
F6h 无 无 使 用 默认 按键 速率 ( 10.9 cps/500 ms ) 
FS5h 无 无 停止 键盘 扫描 
F4h 无 无 开启 键盘 扫描 
F3h 有 无 设置 按键 速率 
F2h 无 有 获取 键盘 的 设备 ID 号 (2 B ) 
FOh 有 无 设置 键盘 使 用 的 扫描 码 集 ， 可 用 参数 值 如 下 。 
0x0: 取得 当前 扫描 码 (有 返回 值 ); 
0x1: 代表 第 一 套 扫描 码 ; 
0x2: 代表 第 二 套 扫描 码 ; 
0x3: 代表 第 三 套 扫描 码 
EEh 无 有 键盘 回复 EEh 
EDh 有 无 控制 LED 灯 亮 / 灭 ， 参 数 各 位 功能 说 明 如 下 。 


@ 键盘 扫描 码 


位 2: Caps Lock 灯 1《〈 亮 ) /0( 灭 ); 
位 1: Num Lock 灯 1 ( 亮 ) /0( 灭 ); 
位 0: Scroll Lock 灯 1( 亮 ) /0( 灭 ) 


XT 型 键盘 使 用 的 键盘 扫描 码 称 为 第 一 套 键盘 扫描 码 ， 它 仅 使 用 1 B 数 据 就 描述 了 绝 大 部 分 按键 


的 按 下 与 抬 起 状态 。 相 比 之 下 ， 第 二 套 和 


一 套 键盘 扫描 码 数据 量 小 ， 便 于 解析 ， 而 


套 键盘 扫描 码 ， 所 以 本 系统 也 采用 第 一 套 键盘 


描 码 的 键 值 。 
3. 鼠标 控制 器 


第 三 套 键 盘 扫 描 码 需要 更 多 数据 来 描述 按键 状态 。 鉴 于 第 
且 键 盘 控 制 器 在 默认 情况 下 仍 将 接收 到 的 数据 转换 为 第 一 
扫描 码 来 描述 按键 状态 ， 表 11-5 描 述 了 第 一 套 键盘 扫 


鼠标 是 操作 计算 机 时 最 为 常用 的 输入 设备 ， 自 从 图 形 操作 界面 问世 后 ， 鼠 标 在 某 些 方面 的 重要 性 
已 经 超越 了 键盘 。 从 图 11-1 中 可 以 看 出 鼠标 和 键盘 都 被 接 人 到 键盘 控制 器 的 PS/2 接 


鼠标 设备 的 控制 方法 与 键盘 设备 是 类 似 的 。 
备 发 送 数据 的 控制 命令 D4h， 通 过 向 IO 端 
0x60 保 存 的 鼠标 控制 命令 发 送 至 鼠标 设备 。 


@ 鼠标 控制 命令 


Intel 8042 键 盘 控制 器 同样 为 我 们 准备 了 丰富 的 鼠标 控制 命令 ， 表 11-6 汇 总 出 常 月 


在 表 11-2 罗 列 的 键盘 控制 占 命 令 中 ,已 经 提供 
口 0x64 发 送 控制 命令 D4h，8042 键 盘 控 制 器 就 可 将 W/O 端 


口上 ， 由 此 可 见 ， 
了 向 鼠标 设 


口 


有 的 鼠标 控制 命 


令 。 值 得 一 提 的 是 , 大 部 分 鼠标 控制 命令 在 执行 结束 后 都 会 向 8042 键 盘 控制 器 发 送 应 答 数据 (0xFA )。 
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表 11-5 ”第 一 套 键盘 扫描 码 的 键 值 表 


KEY MAKE BREAK KEY MAKE BREAK KEY MAKE BREAK 
A 1lE 9E 9 0A 8A [ 1A 9A 
B 30 B0 29 A9 INSERT E0,52 E0,D2 
C 2E AE - 0C 8C HOME E0,47 E0,C7 
D 20 A0 = 0D 8D PG UP E0,49 E0,C9 
E 12 92 \ 2B AB DELETE E0,53 E0,D3 
F 21 Al BKSP 0E 8E END E0,4F E0,CF 
G 22: A2 SPACE 39 B9 PG DN E0,51 EO0,D1 
H 23 A3 TAB OF 8F U ARROW E0,48 E0,C8 
I 17 97 CAPS 3A BA L ARROW E0,4B E0,CB 
J 24 A4 L SHFT 2A AA D ARROW E0,50 E0,.D0 
K 25 A5 L CTRL 1D 9D R ARROW E0,4D E0,CD 
工 26 Ab L GUI E0,5B E0,DB NUM 45 C5 
M 32 B2 L ALT 38 B8 KP/ E0,35 E0,B5 
N 31 Bl R SHFT 36 B6 KP * 37 B7 
O 18 98 R CTRL E0,1D E0,9D KP - 4A CA 
了 19 99 R GUI E0,5C E0,DC KP+ 4E CE 
Q 10 90 RALT E0,38 E0,B8 KP EN E0,1C E0,9C 
及 13 93 APPS E0,5D E0,DD KP . 53 D3 
S 1F 9F ENTER 1C 9C KP0 52 D2 
工 14 94 ESC 01 81 KP 1 4F CF 
U 16 96 Fl 3B BB KP2 50 DO 
V 2F AF F2 3C BC KP 3 51 D1 
W 11 91 F3 3D BD KP 4 4B CB 
X 2D AD F4 3E BE KP5 4C CC 
YY 15 95 FS 3F BF KP6 4D CD 
Z 2C AC F6 40 C0 KP7 47 C7 
0 0B 8B F7 41 Cl KP8 48 C8 
1 02 82 F8 42 C2 KP9 49 C9 
妆 03 83 F9 43 C3 ] 1B 9B 
3 04 84 F10 44 C4 > 27 A7 
4 05 85 上 11 57 D7 28 A8 
5 06 86 F12 58 D8 33 B3 
6 07 87 PRNT E0,2A E0,B7 2 34 B4 

SCRN E0,37 E0,AA 
7 08 88 SCROLL 46 C6 / 33 BS 
8 09 89 PAUSE El1,1D,45 - - - - 
E1,9D,C5 
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表 11-6 ”常用 鼠标 控制 命令 表 


命 令 功能 描述 
FFh 重启 鼠标 
FEh 重新 发 送 上 一 条 数据 包 
F6h 使 用 默认 采样 率 100 Hz、 分 辨 率 4 pixel/mm 
FSh 禁止 鼠标 设备 发 送 数 据 包 
F4h 允许 鼠标 设备 发 送 数 据 包 
F3h 设置 鼠标 采样 率 
F2h 获得 鼠标 设备 的 ID 号 


@ 鼠标 数据 包 格 式 

与 键盘 设备 不 同 的 是 ， 鼠 标 设备 上 报 的 数据 并 非 键盘 扫描 码 ， 而 是 一 个 数据 包 。 数 据 包 记 录 着 鼠 
标 移动 轨迹 和 当前 按键 状态 ， 数 据 包 根 据 鼠 标 设备 的 ID 号 可 进一步 分 为 3 B 和 4 B 两 种 数据 包 。 当 鼠标 
设备 的 ID 号 为 3 或 4 时 ， 鼠 标 设备 才 会 发 送 第 4 字 节 数据 ， 但 大 部 分 鼠标 设备 的 ID 号 为 0。 图 11-2 详 细 描 
述 了 数据 包 的 格式 。 


7 6 5 4 3 2 1 0 
Byie 1 | 了 溢出 “| X 溢 出 | Y 符 号 位 | X 符 号 位 1 “| 鼠标 中 键 | 鼠标 右键 | 鼠标 左 刍 
Byte 2 X 移动 值 
Byte 3 Y 移动 值 
Byte 4 乙 移 动 值 ID 值 为 3 
Byte 4 0 0 鼠标 第 5 键 | 鼠标 第 4 键 Z3 Z2 Z1 Z0 ID 值 为 4 


图 11-2 ”鼠标 数据 包 的 格式 说 明 图 
从 图 11-2 可 知 ，4 B 数 据 包 还 可 根据 鼠标 设备 ID 号 详细 分 为 两 种 格式 。 当 鼠标 设备 的 ID 号 为 3 时 ， 


数据 包 的 第 4 字 节 记录 着 鼠标 垂直 滚轮 的 移动 值 ( Z 移 动 值 ); 当 鼠 标 设 备 的 ID 号 为 4 时 ， 数 据 包 的 第 4 
字 节 记录 着 鼠标 扩展 按键 状态 〈 第 4/5 按 键 ) 和 滚轮 移动 值 (Z0~3 )。 表 11-7 已 汇总 出 鼠标 数据 包 各 位 
的 功能 。 


表 11-7 鼠标 数据 包 各 位 的 功能 说 明 表 


名 称 功能 描述 
X/Y 溢 出 表示 X 或 Y 方 向 数值 溢出 ， 并 丢弃 整个 数据 包 
X/Y 符 号 位 表示 鼠标 在 平面 直角 坐标 系 内 的 移动 方向 
X/Y/Z 移 动 值 记录 X、Y 或 Z 方 向 的 移动 值 
左 /中 / 右 / 第 4/ 第 5 按键 记录 鼠标 按键 状态 
Z0~3 记录 鼠标 滚轮 滚动 方向 


E11-7 中 的 X/Y 表 示 鼠 标 相对 上 一 个 采集 点 的 移动 方向 和 距离 ， 它 们 丝 是 由 符号 位 和 移动 值 组 成 
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的 9 位 二 进 制 补 码 ， 符 号 位 代表 移动 方向 。 而 Z 表 示 鼠 标 滚 轮 的 滚动 方向 和 距离 ， 其 表示 方法 与 XY 相 
同 ， 表 11-8 描 述 了 水 乎 滚轮 和 垂直 滚轮 的 4 个 滚动 方向 。 
表 11-8 ”鼠标 滚轮 滚动 方向 说 明 表 

20~3 功能 描述 
无 滚动 
垂直 向 上 滚动 
垂直 向 下 滚动 
水 平 向 右 滚动 
水 平 向 左 滚动 


mb 呈 口 


有 的 读者 可 能 会 好 奇 ， 为 什么 没有 双击 鼠标 按键 的 状态 位 呢 ? 因为 鼠标 双击 状态 并 非 硬 件 逻辑 ， 
而 是 借助 软件 逻辑 实现 的 ， 这 只 需 为 鼠标 按键 状态 加 入 时 间 戳 ， 当 两 次 鼠标 按 下 的 时 间 间 隔 小 于 一 定 
国 值 时 便 可 认为 触发 鼠标 双击 事件 。 


11.1.2 ”完善 键盘 驱动 

虽然 第 4 章 已 经 粗略 实现 了 一 个 获得 键盘 扫描 码 的 中 断 处 理 函 数 ， 但 它 尚 未 达到 一 个 键盘 设备 驱 
动 程序 的 级 别 。 那 么 ， 本 节 就 将 这 个 键盘 中 断 处 理 函 数 升级 为 键盘 驱动 程序 。 

1. 键盘 初始 化 函数 

在 编写 设备 驱动 程序 前 ， 通 常会 为 设备 驱动 定义 一 系列 结构 体 来 描述 设备 的 独 有 特性 ， 键 盘 驱 动 
程序 也 不 例外 。 那 么 我 们 首先 就 为 键盘 设备 定义 结构 体 来 描述 它 的 独 有 特性 ， 并 定义 一 些 宏 常量 使 操 
作 寄 存 器 的 过 程 更 易于 理解 。 

struct keyboard_inputbuffer 便 是 此 次 用 于 描述 键盘 设备 的 结构 体 ， 代 码 清单 11-3 是 其 详细 
定义 。 
代码 清单 11-3 ”第 11 章 \ 程 序 \ 程 序 11- 八 物理 平台 \kernel\keyboard.h 


#define KB_BUF_SIZE 100 


struct keyboard_ inputbuffer 
{ 
unsigned char * p_head; 
unsigned char * p_tail; 
Tt CBU 
unsigned char buf [KB_BUF_SIZE]; 
这 个 结构 体 为 键盘 设备 定义 了 一 个 100 B 的 循环 队列 缓冲 区 、 缓 冲 区 首尾 指针 以 及 缓冲 数据 计数 
器 。 不 仅 如 此 ， 代 码 清单 11-4 还 为 键盘 驱动 程序 准备 了 一 些 便于 理解 的 宏 常 量 ， 以 提升 驱动 程序 的 可 


读 性 。 


代码 清单 11-4 ”第 11 章 \ 程 序 \ 程 序 11- 八 物理 平台 \kernel\keyboard.h 


#define PORT_KB_DATA Ox60 
#define PORT_KB_STATUS Ox64 


A 
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#define PORT_KB_CMD 0x64 


#define KBCMD WRITE CMD 0x60 
#define KBCMD_READ_CMD 0x20 
#define KB_INIT MODE 0x47 
这 段 代 码 定义 了 键盘 控制 器 的 IO 端口 、 命 令 以 及 初始 数值 等 相关 安 常 量 ， 表 11-9 是 对 这 些 宏 常 量 
的 详细 解释 。 
表 11-9 ”键盘 驱动 程序 宏 常量 说 明 表 
宏 常 量 数值 功能 描述 
PORT_KB_DATA 0x60 IO 端口 0x60 
PORT_KB_STATUS 0x64 IO 端口 0x64 
PORT_KB_CMD 0x64 LO 端口 0x64 
KBCMD_WRITE_CMD 0x60 向 键盘 发 送 配置 命令 ，KB_INIT_MoDE 是 命令 参数 
KBCMD_READ_CMD 0x20 读 取 键盘 的 配置 值 
KB TNIT MODE 0x47 发 往 键盘 的 配置 值 ， 其 各 位 的 设置 状态 如 下 。 
bit 7=0: 0 
bit 6=1: 在 扫描 码 存 人 输入 缓存 区 前 ,将 其 转换 为 第 一 套 扫描 码 ; 
bit 5=0: 使 能 鼠标 ; 
bit 4=0: 使 能 键盘 ; 
bit 3=0: 0 
bit 2=1: 通知 系统 已 完成 热 局 动 测试 及 初始 化 ; 
bit 1=1: 使 能 鼠标 中 断 IRQ12 ( MIBF ); 
bit 0=1: 使 能 键盘 中 断 IRQ1 (IBF ) 


除 此 之 外 ， 我 们 还 定义 了 一 对 宏 函 数 来 检测 输入 /输出 缓冲 区 是 否 已 满 ， 检 测 方法 是 读 取 1O 端 口 
0x64 的 控制 器 状态 位 。 代 码 清 单 11-5 是 这 两 个 宏 函 数 的 完整 定义 ， 其 中 的 宏 常 量 KBSTATUS_IBF 和 和 
KBSTATUS_OBF 是 输入 /输出 缓冲 区 的 状态 标志 位 。 


代码 清单 11-5 “第 11 章 \ 程 序 \ 程 序 11-1\ 物 理 平 台 \kernel\keyboard.h 


0X02 
0X01 


#define KBSTATUS_IBF 
#define KBSTATUS_OBF 


#define 
#define 


经 过 此 番 准 备 后 ， 下 面 就 来 实现 键盘 的 初始 化 〈 挂 载 ) 函数 keyboard_init。 键 盘 的 初始 化 过 
程 不 光 需 要 对 键盘 控制 器 进行 配置 ， 还 必须 对 MO APIC 的 VO 中 断定 向 投递 寄存 器 ( RTE 表 项 ) 进行 配 
置 ， 代 码 清单 11-6 是 键盘 初始 化 函数 的 程序 实现 。 


while(io_in8 (PORT_KB_STATUS) 
while(io_in8 (PORT_KB_STATUS) 


& KBSTATUS_IBF) 
& KBSTATUS_OBF) 


wait_KB_write() 
wait_KB_read() 
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代码 清单 11-6 ”第 11 章 \ 程 序 \ 程 序 11-1\ 物 理 平台 \kernel\keyboard.c 


static struct keyboard inputbuffer * p_kb = NULL; 
statie, linevelite. Lr-ehitt. TE GErl 1 GEL Falt Lalt rE 


void keyboard_ init() 

{ 
struct IO_APIC_RET_entry entry; 
unsigned long i,j; 


D_kb = (struct keyboard inputbuffer *)kmalloc (sizeof (struct 
keyboard_ inputbuffer),0); 


p_kb->p_head = p_kb->buf; 
pP_kb->p_tail = p_kb->buf; 
p_kb->count = 0; 

memset (p_kb->buf,0,KB_BUF_SIZE); 


entry.vector = 0x21; 

entry.deliver mode = APIC_ICR IOAPIC Fixed ; 
entry.dest_mode = ICR_IOAPIC_ DELV_PHYSICAL; 
entry.deliver_status = APIC_ICR_ IOAPIC Idle; 
entry.polarity = APIC_ IOAPIC POLARITY_ HIGH; 
entry.irr = APIC_ IOAPIC_IRR_ RESET; 
entry.trigger = APIC_ICR_ IOAPIC FEdge; 
entry.mask = APIC_ICR_IOAPIC Masked; 
entry.reserved = 0; 


entry.destination.physical.reservedl1 = 0; 
entry.destination.physical.phy_dest = 0; 
entry.destination.physical.reserved2 = 0; 


wait_KB write(); 

io_out8 (PORT_KB_CMD ,KBCMD_NWRITE_CMD) ; 
wait_KB write(); 

io_out8 (PORT_KB_DATA, KB_INIT MODE); 


for(i = 0;i<1000;i++) 
for(j = 0;j<1000;j++) 
nop(); 


Shift_ 1 0 
shift_r 0 
Et 0 这 
0 
0 
0 


人、 本 
alt_l1 总 
alt_r a 


register_irq(0x21, &entry , &keyboard handler, (unsigned long)p_kpb, 
&keyboard_int_ controller, "ps/2 keyboard"); 
} 


在 这 段 程序 的 起 始 处 ， 定 义 了 一 些 全 局 变量 ， 它 们 用 于 记录 功能 键 的 按键 状态 ， 这 些 全 局 变量 会 
在 keyboarqd_init 也 数 中 被 初始 化 。 子 数 keyboarg_init 的 首要 任务 是 动态 创建 struct 
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keyboard_inputbuffer 结 构 体 的 存储 空间 ， 并 对 其 进行 初始 化 赋值 。 随 后 ， 再 对 1/O APIC 的 RTE1 
表 项 进行 配置 ， 进 而 将 键盘 设备 的 中 断 请 求 投递 至 Local APIC ID 为 0 的 处 理 器 核心 (BSP 处 理 器 ) 中 。 
详细 寄存 器 位 功能 说 明 请 读 考 参考 10.3.1 节 的 相关 内 容 。 

紧 接着 ， 通 过 向 键盘 控制 器 发 送 控 制 命令 使 能 键盘 设备 和 IRQ1 中 断 请 求 。 此 处 ， 还 使 能 了 鼠标 设 
备 及 IRQ12 中 断 请 求 。 由 于 现在 鼠标 设备 对 应 的 RTE 表 项 寄存 器 仍 处 于 屏蔽 状态 ， 因 此 不 会 响应 鼠标 
发 出 的 中 断 请 求 。 接 下 来 的 1 百 万 次 无 操作 〈nop 宏 函数 封装 着 汇编 指令 NOP， 即 无 操作 指令 ) 循环 只 
是 为 了 拖延 时 间 ， 使 低速 的 键盘 控制 器 把 控制 命令 执行 完 。 最 后 ， 调 用 register_irq 因 数 向 系统 注 
册 键 盘 设备 的 中 断 处 理 程序 。 

另外 ， 昌 然 本 系统 目前 无 法 实现 驱动 程序 的 动态 挂 载 与 印 载 ， 但 驱动 印 载 函数 作为 驱动 程序 的 一 
部 分 却 是 必 不 可 少 的 ， 代 码 清单 11-7 实 现 了 键盘 驱动 的 印 载 过 程 。 


代码 清单 11-7 第 11 章 \ 程 序 \ 程 序 11- 八 物理 平台 \kernel\keyboard.c 


void keyboard exit() 
{ 


unregister_irqg(0x21); 
kfree( (unsigned long *)p_kb); 
} 


缉 载 程序 非常 简单 ， 仅 需 调 用 中 断 注 销 函 数 ， 再 释放 struct keyboatra_inputbuffer 结 构 体 占 
的 内 存 空间 即 可 。 

关于 注册 键盘 中 断 处 理 程序 时 使 用 的 中 断 处 理 接 口 keyboard_int_controller, 它 是 采用 此 前 
已 编写 好 的 操作 接口 封装 而 成 的 ， 代 码 清单 11-8 是 其 详细 定义 。 


代码 清单 11-8 ”第 11 章 \ 程 序 \ 程 序 11-1\ 物 理 平 台 \kernel\keyboard.c 


hw_int_controller keyboard_ int_controller = 


{ 


.enable = IOAPIC _ enable, 

.disable = IOAPIC_ disable, 

.install = IOAPIC_install, 

.uninstall = IOAPIC uninstall, 

.aCck = IOAPIC_ edge_ack, 
站 入 
2. 键盘 中 断 处 理 防 数 
在 键盘 驱动 初始 化 函数 中 ， 还 有 一 个 函数 尚未 介绍 ， 那 就 是 键盘 中 断 处 理 函 数 ( 中 断 上 半 部 处 理 
函数 )。 键 盘 中 断 处 理 函 数 的 主要 任务 是 从 WO 端口 0x60 读 取 键 盘 扫 描 码 ， 并 将 其 存 人 struct 
keyboard_inputbuffer 绪 构 体 内 的 循环 队列 缓冲 区 ， 青 调整 循环 队列 缓冲 区 首尾 指针 以 及 缓冲 区 
计数 器 ， 函 数 实现 请 参见 代码 清单 11-9。 


代码 清单 11-9 ”第 11 章 \ 程 序 \ 程 序 11- 八 物理 平台 \kernel\keyboard.c 


void keyboard_ handler (unsigned long nr, unsigned long parameter, struct pt_regs * regs) 


{ 


unsigned char x; 
x = io_in8(0x60); 
Color._ printk (WHITE,BLACK," (K:%02x)",x); 
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if(p_kb->p_head == p_kb->buf + KB_BUF_SIZE) 
p_kb->p_head = p_kb->buf; 


*p_kb->p_head = x; 
p_kb->count++; 
p_kb->p_head ++; 

} 


至 此 ， 键 盘 驱 动 程序 已 基本 实现 。 下 面 将 对 中 断 处 理 函 数 qo_IRQ 进 行 调整 ， 删 除 第 10 章 遗留 在 
函数 中 的 测试 程序 ， 代 码 清 单 11-10 是 其 调整 后 的 样子 。 
代码 清单 11-10 ”第 11 章 \ 程 序 \ 程 序 11-1\ 物 理 平 台 \kernel\APIC.c 


void do_IRQO(struct pt_regs * regs,unsigned long nr) //regs:rsp,nr 


{ 


irqg desc T * irqgq = &interrupt_ desc[lnr - 32]; 


if (irq->handler != NULL) 
irq->handler (nr,irgq->parameter,regs); 


if (irq->controller != NULL && irq->controller->ack != NULL) 
irq->controller->ack (nr); 


} 
3. 键盘 扫描 码 解析 函数 
如 果 此 刻 测试 键盘 驱动 程序 的 话 ， 内 核 只 能 打印 出 键盘 扫描 码 。 根 据 前 文 讲述 的 内 容 ， 我 们 只 
解析 了 键盘 扫描 码 之 后 ， 才 能 分 辨 出 按键 字符 。 那 么 ， 现 在 就 去 实现 键盘 扫描 码 解析 函数 。 
为 了 让 键盘 扫描 码 解析 函数 可 以 快速 检索 出 扫描 码 的 按键 ， 特 将 键盘 扫描 码 归 纳 为 三 类 ， 第 一 类 
是 以 0xE1 开 头 的 PauseBreak 键 ， 第 二 类 是 以 0xE0 开 头 的 功能 键 ， 第 三 类 是 1 B 普 通 按 键 。 
在 实现 键盘 扫描 码 解析 函数 前 ， 依 然 要 定义 一 些 宏 常量 ,请 看 代码 清单 11-11 所 示 的 宏 定义 。 


代码 清单 11-11 第 11 章 \ 程 序 \ 程 序 11- 作 物理 平台 \kernel\keyboard.h 


#define NR_SCAN_CODES 0x80 
#define MAP_COLS 2 
#define PAUSEBREAK 1 
#define PRINTSCREEN 2 
#define OTHERKEY 4 
#define FLAG_ BREAK 0x80 


在 这 些 宏 常量 中 ，NR_SCAN_CODES * MAP_COLS 描 述 了 一 个 由 第 三 类 键盘 扫描 码 组 成 的 一 维 数组 
的 长 度 ， 共 128 个 按键 ， 每 个 按键 包含 普通 按键 和 Shift 加 普通 按键 两 种 状态 ; 宏 常量 PAUSEBREAK、 
PRINTSCREEN 和 OTHERKEY 表 示 第 一 类 和 第 二 类 特 丈 按键。 代码 清 单 11-12 定 义 了 两 个 一 维 数组 ， 其 中 
pausebreak_scogde 保 存 着 第 一 类 键盘 扫描 码 、keycode_map_normal 保 存 着 第 三 类 键盘 扫描 码 。 


代码 清单 11-12 ”第 11 章 \ 程 序 \ 程 序 11- 八 物理 平台 \kernel\keyboard.h 


unsigned char pausebreak_ scode[]={0xEl1, 0x1D,0x45, 0XxE1, 0x9D, 0xC5}; 


unsigned int keycode map_normal [NR_SCAN_CODES * MAP_COLS] = // 
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/*scan-code unShift Shift 大/ 


J*OXOO.Y 05 0， 

7 KO 0, 0， //ESC 
ZORO2EY 
/ROKOBKY 
/*0x04*/ 
/OXOSLY 
/*Ox06*/ 
HOROL SY 
/ROKOBEL 
/OXON 
/OXOA*Y 
A*O0KOBAY 
es 
/x*0OXOQx/ 
/x*0OXOerx/ //BACKSPACE 
OKOERL 0, 0， //TAB 


~ :+ Po >opU# 人 mm 一 


Il Dooo、~aam 必 wmND 哺 


这 
ee 


/*Ox7C*) 

/*O0x7d*/ 

/*0Ox7e*/ 

/*O0x7f*/ 

和 

一 维 数 组 keycode_map_normal 里 的 按键 字符 是 根据 键盘 扫描 码 值 升序 排列 到 数组 中 ， 而 数组 
pausebreak_scode 值 保存 着 PauseBreak 键 的 扫描 码 值 。 

此 刻 ， 解 析 键 盘 扫 描 码 的 绝 大 部 分 准备 工作 已 经 就 绕 ， 马 上 进入 键盘 扫描 码 解析 函数 
analysis_keycode 的 实现 阶段 ， 鉴 于 该 函数 的 代码 较 长 ， 下 面 将 逐 段 

代码 清单 11-13 是 键盘 扫描 码 解 析 函 数 的 入 口 部 分 , 它 先 为 几 个 局 部 变量 开辟 了 栈 存储 空间 ， 然 后 
通过 get_scancode 函 数 从 键盘 循环 队列 缓冲 区 中 读 取 1 B 数 据 到 局 部 变量 x 中 ， 并 对 局 部 变量 x 的 数 
值 进行 判断 。 当 局 部 变量 x 的 数值 为 0xE1 时 ， 则 继续 从 键盘 循环 队列 缓冲 区 中 读 取 数据 ， 并 与 第 一 类 
键盘 扫描 码 数 组 中 的 元 素 进行 逐个 比 对 ， 如 果 数 值 完全 相同 ， 就 认为 PauseBreak 键 被 按 下 。 如 果 局 部 
变量 x 的 数值 不 为 0xE1， 则 继续 检索 其 他 两 类 键盘 扫描 码 。 


代码 清单 11-13 ”第 11 章 \ 程 序 \ 程 序 11- 八 物理 平台 \kernel\keyboard.c 


void analysis_keycode() 
{ 
unsigned char x = 0; 
int i» 
int key = 0; 
int make = 0; 


EY 
CE 尖 


x = get_scancode(); 


不 (光宇 关 ; 人 六 记 圭 ) //pause break 
{ 
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key = PAUSEBREAK; 
for(i = 1;i<6;i++) 
if(lget_scancode() != pausebreak_ scode[i]) 
{ 
key = 0 
break 


代码 中 的 get_scancoqe 函 数 通 过 读 取 键盘 驱动 程序 的 循环 队列 缓冲 区 ， 将 中 断 处 理 函 数 捕获 的 
键盘 扫描 码 传递 给 键盘 扫描 码 解析 函数 ， 代 码 清单 11-14 是 get_scancodqe 函 数 的 程序 实现 。 


代码 清单 11-14 ”第 11 章 \ 程 序 \ 程 序 11-\ 物 理 平台 \kernelNkeyboard.c 


unsigned char get_scancode() 


{ 


unsigned char ret = 0; 


if(p_kb->count == 
while(!p_kb->count) 
nop (); 


if(p_kb->p_tail == p_kb->buf + KB_BUF_SIZE) 
pP_kb->p_tail = p_kb->buf; 


ret = *p_kb->p_tail; 
p_kb->count--; 
pP_kb->p_tail+t+; 


return ret; 


} 

如 果 循环 队列 缓冲 区 为 空 ， 则 等 待 键 盘 发 送 数 据 。 否 则 从 循环 队列 缓冲 区 中 读 取 1 B 数 据 返回 给 
函数 调用 者 ， 并 在 函数 返回 前 调整 缓冲 区 首尾 指针 以 及 缓冲 区 计数 器 。 

既然 按键 不 属于 第 一 类 键盘 扫描 码 , 那么 我 们 就 通过 代码 清单 11-15 来 检测 按键 是 否 属于 第 二 类 键 加 
盘 扫 描 码 ， 其 检测 过 程 依然 采用 逐个 字 节 匹配 法 。 


代码 清单 11-15 ”第 11 章 \ 程 序 \ 程 序 11-1\ 物 理 平 台 \kernel\keyboard.c 


else if(x == OxE0) //print Screen 


{ 


x = get_scancode(); 


switch (x) 


{ 


case 0x2A: // press printscreen 


if(lget_scancode() == 0xE0) 
if(get_scancode() == 0x37) 
{ 
key = PRINTSCREEN; 
make = 1; 
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break; 


case 0xB7: // UNpress printscreen 


if(get_scancode() == 0xE0) 
if(get_scancode() == OxAA) 
上 
key = PRINTSCREEN; 
make = 0; 


break; 


case 0xld: // press right ctrl 


2 
key = OTHERKEY; 
break; 


case 0x9d: // UNpress right ctrl 


CCErLEE = 03 
key = OTHERKEY; 
break; 


case 0x38: // press right alt 


和 
key = OTHERKEY; 
break; 


case 0xb8: // UNpress right alt 


Lt 让 :3 
key = OTHERKEY， 
break; 

default: 
key = OTHERKEY 
break; 


} 


这 段 代码 只 对 Print Screen 、Right Ctrl 、Right Alt 三 个 第 二 类 键盘 扫描 码 进行 检测 ， 其 他 按键 暂 时 


忽略 ， 有 兴趣 的 读者 可 自行 补充 代码 实现 。 如 果 检 测 出 相 匹 配 的 键盘 扫描 码 ， 则 使 月 


有 key、ctrl_r 或 


alt_r 变 量 进行 记录 。 如 果 局 部 变量 x 的 数值 也 不 属于 第 二 类 键盘 扫描 码 ， 那 么 继续 检索 第 三 类 键盘 


扫描 码 ， 请 继续 往 下 看 代码 清单 11-16。 


代码 清单 11-16 第 11 章 \ 程 序 \ 程 序 11- 八 物理 平台 \kernel\keyboard.c 


if(key == 0) 

{ 
unsigned int * keyrow = NULL; 
int column = 0; 
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make = (x & FLAG BREAK ? 0:1) 
keyrow = &keycode map_ normal[(x & Ox7F) * MAP_COLS]; 


if(shift_ 1 || shift_r) 
CoOL 二 二 


key = keyrow[lcolumn]; 


switch(x & Ox7F) 
{ 


Case 0x2a: SHERTPALi: 
shift_l1 = make; 
key = 0; 
break; 

Case 0x36: /SHLIELD. R:: 
shift_r = make; 
key = 0; 
break; 

case 0xld: //CTRL_L: 
ctrl_l1 = make; 
key = 0; 
break; 

Case 0x38: //ALT_L: 
alt_ 1 = make; 
key = 0; 
break; 

default: 
if(!make) 

key = 0; 
break; 
} 
if (key) 


Color_printk (RED,BLACK," (K:%c)\t",key); 
} 


这 上段 代码 先 判 断 局 部 变量 key 的 数值 ， 以 确定 其 是 否 与 第 一 类 或 第 二 类 键盘 扫描 码 匹 配 成 功 ， 如 
果 未 匹配 成 功 (key 值 为 0 ) 则 通过 本 段 程序 与 第 三 类 键盘 扫描 码 进行 匹配 。 

匹配 过 程 的 第 一 步 是 通过 代码 make = (x & FLAG_BREAK ? 0:1) ;判断 键盘 扫描 码 描述 的 是 按 
下 状态 还 是 抬 起 状态 ;， 接着， 再 使 用 程序 keyrow = &keycode_map_normal[(x & 0x7F) * 
MAP_COLS] ;计算 出 键盘 扫描 码 在 数组 中 的 位 置 ; 然后 ， 根 据 左 右 Shift 键 的 状态 来 确定 局 部 变量 xey 
应 该 保存 Shift 位 置 的 字符 ， 还 是 unShift 位 置 的 字符 。( 代码 key = keyrow[column]; ) 如 果 当 前 按 下 
的 是 功能 键 ， 则 执行 相应 的 操作 ， 否 则 将 变量 key 保 存 的 字符 打印 出 来 。 
至 此 ,键盘 扫描 码 解 析 函 数 实 现 完毕 ,下面 将 进入 驱动 程序 的 测试 阶段 ， 如 代码 清单 11-17 所 示 ， 
操作 系统 已 将 键盘 初始 化 函数 keyboard_init 加 入 到 内 核 主 程序 中 ， 并 循环 调用 analysis_ 
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keycode 函数 获取 按键 字符 。 


代码 清单 11-17 第 11 章 \ 程 序 \ 程 序 11- 八 物理 平台 \kernel\main.c 


void Start_Kernel (void) 


color_printk (RED,BLACK, "keyboard init \n"); 
keyboargd_init(); 


A/ GOLOr printk(RED .BLACK,. "task nrt. NM) 
/XY task init():; 


while(1) 
analysis_keycode(); 


} 


我 们 将 编译 链接 后 的 内 核 程 序 置 于 物理 平台 中 运行 ,项 击 键 盘 按 键 ， 系 统 就 会 打印 出 键盘 扫描 码 
值 及 其 对 应 的 字符 ， 运 行 效果 如 图 11-3 所 示 。 


)0000000000010 


<: 9f) ( 


)0000009a600000,p 


00011e600000,T 


end_br 


图 11-3 ”键盘 按键 效果 图 


从 图 11-3 可 以 看 出 ， 键 盘 扫描 码 与 对 应 的 按键 字符 是 一 致 的 ， 读 者 也 可 比较 其 他 按键 的 扫描 码 和 
字符 。 有 能 力 的 读 考 可 自行 完善 键盘 的 其 他 功能 。 


11.1.3 ”实现 鼠标 驱动 


尽管 在 键盘 驱动 程序 中 鼠标 设备 和 IRQ12 中 断 请 求 已 经 使 能 ， 但 滑动 鼠标 或 者 滑 鼠 却 无 法 使 系统 
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作出 任何 反应 。 不 用 着 急 ， 现 在 就 来 实现 鼠标 驱动 程序 。 相 信 经 过 键盘 驱动 程序 的 洗礼 ， 再 编写 一 个 
附属 于 键盘 控制 器 的 鼠标 驱动 程序 并 不 是 什么 难事 。 
1. 鼠标 初始 化 函数 
与 键盘 驱动 程序 的 实现 思路 相似 ， 在 编写 驱动 程序 之 前 ， 我 们 需要 为 鼠标 驱动 设计 结构 体 来 描述 
它 的 独 有 特性 。 虽 然 PS/2 接 口 的 鼠标 外 设 附 属于 键盘 控制 器 ， 但 鼠标 传输 的 数据 信息 却 与 键盘 截然 不 
同 ,这 点 已 在 鼠标 控制 器 的 讲解 过 程 中 详细 介绍 过 。 代 码 清 单 11-18 是 为 鼠标 设备 定义 的 数据 包 结构 体 
以 及 宏 常 量 。 


代码 清单 11-18 ”第 11 章 \ 程 序 \ 程 序 11- 和 \ 物 理 平台 \kernel\mouse.h 


#define KBCMD_SENDTO_MOUSE 0xd4 
#define MOUSE_ENABLE Oxf4 
#define KBCMD_EN_ MOUSE_INTFACE 0xa8 


struct mouse_ packet 


{ 


unsigned char Byte0; //7:Y overflow,6:X overflow,5:Y sign bit,4:X sign 
//bit,3:Always,2:Middle Btn,1:Right Btn,0:Left Btn 

char Bytel; //X movement 

char Byte2; //Y movement 


上 


struct mouse packet mouse; 
代码 清单 11-18 共 为 鼠标 驱动 定义 了 三 个 宏 常量 , 它们 分 别 代表 着 发 往 鼠 标的 控制 命令 和 发 往 键 盘 
控制 器 的 命令 ， 表 11-10 是 这 些 宏 常量 的 详细 解释 。 


表 11-10 ”鼠标 驱动 程序 宏 常 量 说 明 表 


宏 常 量 名 数值 功能 描述 
KBCMD_SENDTO_MOUSE 0xd4 向 鼠标 设备 发 送 数 据 
MOUSE_ ENABLE 0xf4 允许 鼠标 发 送 数据 包 
KBCMD_EN_MOUSE_INTFACE 0xa8 开启 鼠标 端 


由 于 ThinkPad X220T 笔 记 本 电脑 的 滑 鼠 采用 3 B 数 据 包 ， 故 此 我 们 采用 struct mouse_packet 绪 
构 体 来 描述 鼠标 的 数据 包 。 

现在 , 编写 鼠标 驱动 程序 前 的 准备 工作 基本 就 绪 , 接着 就 来 实现 鼠标 的 初始 化 函数 mouse_init。 
对 于 鼠标 驱动 程序 来 说 ， 它 与 键盘 驱动 程序 十 分 相似 ， 很 多 段 代码 是 可 以 复 用 的 ,读者 可 与 键盘 驱动 
程序 对 比 阅读 以 加 深 印 象 。 为 了 节省 篇 幅 ， 这 里 省 略 了 重复 或 易 理 解 的 程序 片段 ， 代 码 清单 11-19 是 鼠 
标 初 始 化 函数 的 部 分 程序 实现 。 


代码 清单 11-19 ”第 11 章 \ 程 序 \ 程 序 11-2\ 物 理 平台 \kernel\mouse.c 


static struct keyboard_ inputbuffer * p_mouse = NULL; 
static int mouse_ count = 0; 


void mouse_ init() 
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struct IO_APIC_RET_ entry entry; 
unsigned long 1i,j; 


D_mouse = (struct keyboard_ inputbuffer *)kmalloc(sizeof (struct 
keyboard_inputbuffer),0); 


mouse_count = 0; 


register_irqgq(0x2c, &entry , &mouse handler, (unsigned long)p_mouse, 
&mouse_int_controller, "ps/2 mouse"); 


wait_KB write(); 
io_out8 (PORT_KB_CMD, KBCMD_EN_MOUSE_INTFACE); 


for(i = 0;i<1000;i++) 
for(j = 0;j<1000;j++) 
nop (); 


wait_KB write(); 

io_out8 (PORT_KB_CMD, KBCMD_SENDTO_ MOUSE); 
wait_KB write(); 

io_out8 (PORT_KB_DATA,MOUSE_ENABLE); 


for(i = 0;i<1000;i++) 
for(j = 0;j<1000;j++) 
nop(); 


wait_KB write(); 

io_out8 (PORT_KB_CMD, KBCMD WRITE_CMD); 
wait_KB write(); 

io_out8 (PORT_KB_DATA, KB_INIT MODE); 


jl 

按照 设备 驱动 程序 的 初始 化 惯例 ,mouse_init 函 数 将 先 为 鼠标 设备 动态 申请 并 初始 化 结构 体 存 
储 空间 ， 结 构 体 struct keypboardq_inputbuffer 不 但 可 以 用 来 保存 键盘 扫描 码 ， 还 可 以 用 来 保存 鼠 
标 数据 包 。 随 后 是 对 RTE12 表 项 (IO APIC 的 IO 中 断定 向 投递 寄存 器 ) 的 配置 过 程 ， 此 处 已 将 其 省 略 。 
接着 ,通过 register_ira 函 数 向 系统 注册 鼠标 设备 的 中 断 处 理 程序 ， 并 使 用 MO 端口 操作 函数 设置 键 
盘 控 制 器 和 鼠标 设备 ， 进 而 完成 鼠标 设备 的 初始 化 工作 。 

至 于 鼠标 中 断 处 理 接口 mouse_int_controller 和 仓 载 函数 mouse_exit， 它 们 与 键盘 驱动 的 代 
码 实现 相似 。 鼠 标 中 断 上 半 部 处 理 函 数 mouse_hanqler 亦 是 如 此 ， 只 不 过 其 中 显示 的 不 再 是 键盘 扫 
描 码 而 是 鼠标 数据 包 ， 此 处 一 并 将 其 省 略 。 

2. 鼠标 数据 包 解 析 函 数 

既然 鼠标 设备 是 以 数据 包 的 形式 向 处 理 器 发 送 数据 , 那么 鼠标 驱动 程序 就 应 该 具备 数据 包 解 析 功 
能 。 函 数 analysis_mousecode 就 实现 了 鼠标 数据 包 的 解析 工作 ,其 设计 思路 与 键盘 扫 摘 码 解析 函数 
大 体 上 一 致 ， 只 是 它们 解析 的 数据 格式 不 同 而 已 ， 代 码 清单 11-20 是 该 函数 的 程序 实现 。 
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代码 清单 11-20 ”第 11 章 \ 程 序 \ 程 序 11-2\ 物 理 平台 \kernel\mouse.c 


void analysis_ mousecode() 
{ 


unsigned char x = get_ mousecode(); 


Switch (mouse_count ) 
{ 
case 0: 
mouse_count++; 
break; 


case 1: 
mouse.Byte0 = x; 
mouse_count++; 
break; 


case 2: 
mouse.Bytel = (char)x; 
mouse_count++; 
break; 


case 3: 
mouse.Byte2 (ehar}x} 
mouse_count 下 六 
Color_printk (RED,GREEN," (M:%02x,X:%3d,Y:%$3d) \n" mouse.Byte0， 
mouse.Bytel, mouse.Byte2); 
break; 


default: 
break; 
} 
} 


这 段 程 序 通 过 get_mousecode 函 数 从 鼠标 循环 队列 缓冲 区 中 读 取 1 B 数 据 ， 再 根据 全 局 变量 
mouse_count 的 计数 值 ( 可 选 值 为 1!1、2、3 ) 将 这 1 B 数 据 填 和 人 struct mouse_packet 结 构 体 的 成 员 
变量 中 ， 并 调整 nouse_count 的 计数 值 。 

当 mouse_count 的 值 为 3 时 ， 说 明 鼠 标 驱动 此 时 已 接收 完整 的 一 包 数 据 , 那么 就 将 这 3 B 数 据 打印 
出 来 。 补 充 一 点 ,虽说 X/Y 是 9 位 的 二 进 制 补 码 , 但 其 在 本 系统 物理 平台 的 移动 量 几乎 不 会 超过 70， 而 
旦 此 处 只 为 验证 运行 效果 ,使 用 8 位 的 char 类 型 来 表示 足 矣 。 如 果 读 者 的 鼠标 过 于 灵敏 ， 或 编程 时 需 
要 更 精确 的 数值 ， 读 者 可 自行 将 其 合并 成 9 位 。 

在 初始 化 鼠标 设备 时 ， 鼠 标 驱 动 曾 向 鼠标 设备 发 送 过 控制 命令 ， 为 了 跳 过 控制 命令 返回 的 应 答 数 
据 0xFA， 特 将 全 局 变量 mouse_count 的 初始 值 设 置 为 0， 并 把 鼠标 中 断 处 理 程序 的 注册 过 程 置 于 发 送 
控制 命令 前 。 

同时 ， 在 调用 color_printk 函 数 的 过 程 中 ,格式 符 siy/d/u 存 在 bug， 从 而 导致 无 法 显示 正确 的 
负数 。 这 个 bug 是 由 可 变 参 数 va_arg (args,unsigned long) 使 用 的 数据 类 型 不 匹配 造成 的 ， 因 此 
%i/gd/u 格 式 符 解析 代码 (位 于 vsprintf 函 数 中 ) 的 可 变 参 数 类 型 需要 修改 ， 即 从 unsigned long 
型 改 为 1ong 型 。 
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现在 ,鼠标 数据 包 的 解析 函数 也 已 实现 。 下 面 进入 测试 阶段 ,请 参照 代码 清单 11-21 将 鼠标 驱动 程 
序 和 数据 包 解析 函数 添加 到 内 核 主 程序 中 。 


代码 清单 11-21 第 11 章 \ 程 序 \ 程 序 11-2\ 物 理 平台 \kernel\main.c 
void Start_Kernel (voidqd) 


Color_printk (RED,BLACK, "keyboard init \n"); 
keyboard_init(); 


color_printk (RED,BLACK, "mouse init \n"); 
mouse_init(); 


// color_printk (RED,BLACK, "task_init \n"); 
// task_init(); 


while(1) 
{ 
if (p_kb->count) 
analysis_keycode(); 
if (p_mouse->count) 
analysis_mousecode(); 


} 
我 们 将 编译 链接 后 的 内 核 程序 置 于 物理 平台 中 运行 ， 触 碰 滑 鼠 或 鼠标 ， 便 会 有 鼠标 数据 包 信 息 失 


印 在 屏幕 上 。 不 仅 如 此 ， 获 击 键盘 按键 ， 仍 会 有 键盘 扫描 码 和 对 应 字符 显示 出 来 。 图 11-4 是 程序 的 运 
行 效果 。 


0 


图 11-4 ”鼠标 和 键盘 按键 效果 图 
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如 果 读 者 使 用 的 鼠标 设备 采用 4 B 数 据 格式 ， 请 读者 自行 修改 struct mouse_packet 结 构 体 定义 
及 相关 代码 实现 。 
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在 完成 两 款 输入 型 设备 ( 键盘 和 鼠标 ) 的 驱动 程序 研发 工作 后 ， 接 下 来 将 提升 一 下 驱动 程序 的 开 
发 难度 ， 实 现 硬盘 设备 (输入 /输出 型 设备 ) 驱动 程序 。 
虽然 硬盘 驱动 程序 的 软件 结构 较 鼠 标 、 键 盘 驱动 程序 复杂 许多 ， 但 其 功能 和 操作 方式 与 软盘 、U 
盘 非 常 类 似 ， 不 至 于 令 我 们 感到 陌生 。 

硬盘 设备 与 软盘 设备 在 机 械 结构 和 操作 方式 上 十 分 相似 ， 而 且 早 在 第 3 章 已 对 软盘 设备 有 所 涉 
猎 , 但 当时 的 软盘 鹿 区 读 取 操作 完全 依赖 于 BIOS 中 断 服 务 程序 。 此 刻 ， 处 理 器 已 运行 在 IA-32e 模 式 ， 
驱动 程序 不 能 也 不 应 该 再 借助 BIOS 中 断 服务 程序 来 访问 硬盘 。 为 了 加 深 对 驱动 程序 的 理解 ,也 为 了 给 
学 习 文件 系统 打下 基础 ， 现 在 该 是 探索 一 下 硬盘 设备 的 时 候 了 。 


11.2.1 硬盘 设备 初探 


鉴于 硬盘 设备 的 数据 传输 过 程 是 异步 操作 ， 其 驱动 程序 的 逻辑 结构 比较 复杂 。 为 了 快速 掌握 硬盘 
设备 的 操作 方法 ， 本 节 将 以 基础 概念 和 操作 方法 的 讲解 为 主 ， 至 于 硬盘 驱动 程序 的 逻辑 结构 将 在 后 续 
章节 中 了 予以 讲解 。 

1. 硬盘 设备 概述 

不 论 是 硬盘 设备 、 软 盘 设 备 还 是 U 盘 设备 ， 它 们 与 键盘 、 鼠 标 等 设备 的 最 大 区 别 在 于 它们 以 数据 
块 〈 扇 区 ) 作为 传输 单位 ， 而 非 字 节 ， 这 类 设备 统称 为 块 设备 。 与 块 设备 相对 的 是 字符 设备 〈 或 称 字 
节 流 设备 )， 诸 如 鼠标 、 键 盘 、 趾 口 等 。 

作为 同属 于 块 设备 的 硬盘 和 软盘 ， 它 们 将 整 张 磁盘 片 分 为 磁头 、 磁 道 、 记 区 三 部 分 。 多 张 这 样 的 
磁盘 片 便 组 成 了 一 块 机 械 硬 盘 ， 图 11-5 展 示 了 机 械 硬 盘 的 物理 结构 。 
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图 11-5 ”机械 硬盘 的 物理 结构 图 
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图 11-5 中 的 主轴 由 电机 制 动 ， 其 上 固定 着 多 张 磁 盘 片 ， 使 得 磁盘 片 向 固定 方向 匀速 旋转 。 磁 头 臂 
通过 往复 移动 ， 从 而 将 磁头 移 至 目标 磁道 上 去 读 取 目 标 扇 区 内 的 数据 。 通 常情 况 下 ， 机 械 硬 盘 的 平均 
寻 道 时 间 是 一 个 非常 重要 的 性 能 指标 。 目 前 ， 大 多 数 机 械 硬 盘 的 平均 寻 道 时 间 为 十 几 毫 秒 ， 因 此 合理 
的 排列 扇 区 读 写 顺序 可 有 效 降 低 寻 道 浪费 的 时 间 。 

对 于 软盘 、 硬 盘 以 及 光盘 等 存储 介质 ， 处 理 器 无 法 像 访 问 内 存 地 址 一 样 直 接 访问 磁盘 扇 区 中 的 数 
据 ， 必 须 借 助 磁盘 控制 器 才能 对 磁盘 进行 操作 。 磁 盘 控 制 器 往往 挂 载 于 PCI 总 线 或 LPC 总 线 下 ， 图 11-6 
描绘 了 磁盘 控制 需 在 总 线 中 的 挂 载 位 置 。 
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图 11-6 ”总 线 中 的 磁盘 控制 器 挂 载 位 置 网 


图 11-6 中 的 软盘 部 分 仅 供 读者 了 解 ， 这 里 将 重点 介绍 硬盘 部 分 。SATA 控 制 器 用 于 操作 硬盘 或 光驱 
等 存储 设备 ， 它 通过 向 存储 设备 发 送 ATA/ATAPI 规 范 命令 来 操作 存储 设备 。 为 了 兼容 IDE 接 口 的 硬盘 
设备 ，SATA 控 制 器 通常 会 支持 IDE 操 作 模式 和 AHCI 操 作 模式 ， 通 过 BIOS 的 配置 选项 可 在 这 两 种 模式 
间 自 由 切换 。 下 面 将 对 这 段 描述 中 提 及 的 名 词 、 硬 盘 操 作 模 式 的 切换 方法 、AIA/ATAPI 规 范 命令 以 及 
本 系统 选用 的 硬盘 操作 模式 予以 讲解 。 

@ 名 词 解释 

口 IDE (Integrated Drive Electronics， 电 子 集成 驱动 器 )。IDE 代 表 了 一 种 硬盘 传输 接口 ， 这 种 
接口 连接 着 一 个 集 硬 盘 控 制 问 和 磁盘 片 于 一 身 的 硬盘 驱动 器 。 随 着 技术 的 不 断 改进 ， 更 高 级 的 
EIDE( EnhancedIntegrated Drive Electronics, 增强 型 电子 集成 驱动 器 ) 传输 接口 可 达到 100 MB/s 
的 传输 速度 。 
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口 ATA (Advanced Technology Attachment/AT Attachment，AT 附 加 设备 )。IDE 接 口 描述 的 是 标 
准 连接 方式 ，ATA 接 口才 是 这 类 硬盘 真正 的 名 字 ，IDE 只 是 通俗 称呼 。 经 过 多 年 的 发 展 ，ATA 
规范 扩展 出 了 多 个 版 本 ， 表 11-11 归 纳 了 ATA 规 范 各 个 版 本 的 特点 。 

表 11-11 ATA 规 范 各 版 本 的 特点 描述 表 

版 本 特点 描述 
AIA-1 支持 主 、 从 两 个 设备 ， 支 持 PIO 和 DMA 传 输 模 式 ， 传 输 速 率 只 有 3.3 MB/s 
ATA-2 ”ATA-2 是 对 ATA-1 的 扩展 ， 也 就 是 EIDE; 支持 CHS 和 LBA 寻 址 模式 ， 最 高 传输 率 提高 到 16.6 MB/s 
ATA-3 引入 S.M.A.R.T 技 术 ( Self-Monitoring Analysis and Reporting Technology， 自 监测 分 析 与 报告 技术 ) 
ATA-4 正 是 支持 Ultra DMA 数 据 传输 模式 ， 并 引入 宛 余 校 验 计 术 ( CRC ) ,传输 速度 提升 至 33 MB/s 
ATA-5 ATA-5 也 叫 作 Ultra DMA 66 或 ATA66， 传 输 速度 提升 至 66 MB/s 
ATA-6 ATA-6 也 称 为 ATA100， 它 在 ATA33 和 ATA66 的 基础 上 将 传输 速度 提升 至 100 MB/s 


ATA-7 ATA-7 也 称 为 ATA133 ， 传 输 速 度 进一步 提升 至 133 MB/Ms， 但 由 于 硬件 瓶颈 ， 导 致 生产 商 转 而 研发 新 型 
硬盘 接口 标准 ( SATA ) 

ATA-8 ATA8 标 准 包 括 AST、APT、ACS、AAM 四 卷 ， 其 中 新 增 NCQ (Native Command Queuing， 本 地 指令 队 
列 ) 指令 、 乱 序 执行 


目前 ，ATA 规 范 描 述 的 硬盘 接口 可 分 为 PATA 和 SATA 两 种 。 

和 PATA (Parallel ATA， 并 行 ATA 接 口 )。PATA 接 口 也 叫 作 并 行 AIA 硬 盘 接口 ， 由 于 其 存在 诸 
多 不 尽 如 人 意 的 地 方 ， 璧 如 各 三 家 设备 不 兼容 、 传 输 速 度 慢 〈 最 大 传输 速度 150MB/s )、 不 
支持 热 插 拔 、 宛 错 性 差 、 功 耗 高 、 影 响 散热 及 连接 线 长 度 有 限 等 问题 ， 它 经 过 短暂 的 时 光 便 
退出 了 历史 舞台 。 

四 SATA (Serial ATA, 串 行 ATA 接 口 ) 。 随 着 PATA 接 口 硬盘 卷 人 历史 的 洪流 , 取而代之 的 是 SATA 
接口 硬盘 。SATA 接 口 规范 现在 已 升级 至 3.0 版 ， 其 传输 速度 高 达 6 Gb/s。 

口 ATAPI (AT Attachment Packet Interface，AT 附 加 分 组 接口 )。ATAPI 接 口 是 CD/DVD 或 其 他 驱 

动 器 的 ATA 接 口 (PATA 或 SATA )。 

口 SAS (Serial Attached SCSI, 串 行 连接 SCSI) 。SAS 串 行 接口 是 继 SCSI( Small Computer System 
Interfae ， 小 型 计算 机 系统 接口 ) 并 行 接口 之 后 开发 的 新 一 代 磁 盘 接 口 ， 它 与 SATA 接 口 在 物理 
层 和 协议 层 完 全 兼容 。 从 接口 标准 上 而 言 ，SAIA 是 SAS 的 子 标准 ， 因 此 SAS 控 制 器 可 直接 操 
作 SATA 接 口 的 磁盘 ， 反 之 则 不 能 。 

@ 硬盘 操作 模式 的 选择 

AHCI 操 作 模 式 是 SATA 控 制 器 的 标准 硬盘 操作 模式 ， 但 SATA 控 制 器 为 了 兼容 ATA 接 口 ( PATA 接 
口 或 IDE 接 口 ) 的 硬盘 ， 特 意 在 BIOS 控 制 器 中 提供 了 配置 选项 供用 户 在 两 种 操作 模式 间 切 换 。 图 11-7 
是 本 系统 物理 平台 的 BIOS 配 置 选项 位 置 。 


可 
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ThinkPad Setup 


SATA Controller Mode OQption 


Compatibilitu 


Help Select Itenm Change Ualues Setup Defaults 
Exit Select Menu Select * Sub-Menu Save and Exit 


图 11-7 BIOS 中 的 硬盘 操作 模式 切换 图 


图 11-7 中 的 SATA Controller Mode Option 选 项 用 于 选择 硬盘 操作 模式 ，AHCI 选 项 为 SATA 控 制 器 的 
标准 硬盘 操作 模式 ， 而 Compatibility 选 项 为 兼容 ATA 接 口 的 硬盘 操作 模式 。 其 他 品牌 的 BIOS 可 能 将 
AHCI 选 项 更 名 为 SAITA ， 把 Compatibility 选 项 更 名 为 IDE/ATA/Compatible。 

@ ATA 控 制 命令 

目前 ，ATA8 是 ATA 规 范 的 最 新 版 本 ，ATA8 共 包括 AST、APT、ACS、AAM 四 卷 ， 其 中 ATA8-ACS 
卷 描 述 了 此 版 规范 涉及 的 控制 命令 ， 这 些 命令 不 仅 包 括 磁盘 扇 区 的 读 写 操作 ， 还 包括 读 / 写 /刷新 缓存 
操作 、 安 全 设置 操作 、 磁 盘 机 能 配置 操作 、 硬 盘 信 息 检 测 操作 等 。 表 11-12 已 汇总 出 本 系统 硬盘 驱动 程 
序 开发 过 程 中 将 会 使 用 的 命令 ， 更 多 命令 请 读者 自行 阅读 ATA8 规 范文 档 。 


表 11-12 ATA/ATAPI-8 控 制 命令 表 


命令 功能 描述 

ECh 硬件 设备 识别 信息 

20h 读 扁 区 (28 位 LBA 寻 址 模式 ) 

24h 扩展 读 扇 区 ( 48 位 LBA 寻 址 模式 ) 
30h 写 扇 区 (28 位 LBA 寻 址 模式 ) 
34h 扩展 写 扇 区 (48 位 LBA 寻 址 模式 ) 


@ PIO 模 式 (Programming Input/Output Model，LIO 端 口 编程 模式 ) 

由 于 SATA 控 制 器 和 PCI 总 线 控制 器 的 结构 和 协议 比较 复杂 ， 同 时 为 了 快速 学 习 并 简化 硬盘 设备 
操作 过 程 ,本 系统 将 选用 基于 IDE 接 口 的 PIO 模 式 去 访问 硬盘 设备 ， 即 通过 1/O 端 口 对 硬盘 进行 访问 。 
表 11-13 描 述 了 主 /从 硬盘 各 1/O 端 口 的 功能 。 
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表 11-13 ”硬盘 Il/O 端 口 的 功能 说 明 表 


组 别 IO 端口 端口 功能 描述 
主 控 制 器 从 控制 器 读 取 操 作 写 入 操作 

1F0 170 数据 

Fl 171 错误 状态 写 补偿 (已 废弃 ) 

F2 172 操作 扇 区 数 

F3 173 扇 区 号 /LBA ( 7:0 ) 

F4 174 柱 面 号 (7:0 ) /LBA ( 15:8 ) 

F5 175 柱 面 号 (15:8 ) /LBA ( 23:16 ) 

F6 176 设备 配置 寄存 器 ， 各 位 功能 如 下 。 

命令 端 CHS 模 式 。 ”LBA 模式 

bit7: 必须 为 1 必须 为 1 
bit 6: 选择 寻 址 模式 ，0 为 CHS 模 式 ，1 为 LBA 模 式 
bit 5: 必须 为 1 必须 为 1 
bit 4: 选择 硬盘 驱动 器 ，0 为 主 硬盘 ，1 为 从 硬盘 
bit 0~3: 磁头 号 LBA ( 27:24 ) 

1F7 177 控制 器 状态 端口 ， 同 3F6/376 控制 器 命令 端口 ， 详 见 表 11-12 

3F6 376 状态 寄存 器 ， 各 位 功能 如 下 。 控制 寄存 器 ， 各 位 功能 如 下 。 
bit 7=1: 控制 器 忙 bit 2=1: 重启 控制 器 

控制 bit 6=1: 驱动 需 准 备 就 绪 =0: 普通 操作 
bit 3=1: 数据 请 求 bit 1=1: 禁止 中 断 请求 
bit 0=1: 命令 执行 错误 =0: 使 能 中 断 请 求 ( 3F6 使 能 
注 : 其 他 位 功能 已 经 废弃 IRQ14，376 使 能 IRQ15 ) 
注 : 3F7h、377h 端 口 同 样 用 于 硬盘 ， 它 只 是 集成 上 表 的 某 几 位 ,不 经 常 使 用 。 某 些 资料 表示 7xh 和 Fxh 端 口 (x 代表 0~7 ) 
可 用 于 控制 第 三 和 四 块 硬盘 。 


对 于 表 11-13 提 及 的 错误 状态 端口 ， 此 处 必须 进行 补充 说 明 。 错 误 状 态 端 口 ， 可 描述 命令 错误 状态 
和 诊断 错误 状态 。 其 中 ,诊断 错误 状态 是 在 控制 器 自 检 时 返回 的 状态 信息 ， 而 命令 错误 状态 则 是 在 控 
制 器 执行 命令 期 间 产 生 的 错误 状态 ， 以 下 是 这 两 种 错误 状态 的 介绍 

@ 诊断 错误 状态 

在 系统 上 电 或 者 重启 后 ， 从， 此 时 从 错误 端口 读 出 的 状态 信息 描述 了 
硬盘 的 诊断 结果 ， 表 11-14 阐 述 了 诊断 错误 位 或 值 代 表 的 含 


表 11-14 诊断 错误 状态 表 


位 / 值 ” 了 驱动 器 0 的 状态 描述 驱动 器 1 的 状态 描述 | 位 / 值 。 驱动 器 0 的 状态 描述 驱动 器 1 的 状态 描述 


bit7 驱动 器 1 出 错 保留 03h 扇 区 缓冲 区 错误 扇 区 缓冲 区 错误 
05h 控制 器 错误 控制 器 错误 02h 驱动 器 0 出 错 驱动 器 1 出 错 
04h ECC 电 路 错误 ECC 电 路 错误 01h 驱动 器 0 和 1 无 错误 驱动 器 1 无 错误 
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表 11-14 描 述 了 驱动 器 0/1 的 诊断 错误 状态 ，L/O 端 口 1F1h/171h 每 次 只 能 描述 一 个 驱动 器 的 诊断 状 
态 ， 处 理 器 通过 配置 /O 端 口 1F6h/176h 的 第 4 位 可 以 在 两 个 驱动 器 间 切 换 。 

@ 命令 错误 状态 
当 硬 盘 完 成 初始 化 并 进入 运行 状态 后 ， 通 过 IO 端口 IFlh 可 取得 命令 执行 的 错误 状态 ， 表 11-15 已 
归纳 出 此 端口 可 描述 的 错误 状态 。 


名 


表 11-15 命令 错误 状态 描述 表 


位 首 误 状态 描述 位 错误 状态 描述 

7 坏 肩 区 2 命令 中 目 

6 不 可 修复 的 数据 错误 1 已 经 达到 介质 末尾， 仍 未 发 现 磁道 
4 找 不 到 ID 或 目标 记 区 0 无 效 长 度 、 命 令 超时 、 介 质 错误 竺 


注 : 其 他 位 已 废弃 。 


2. 获取 硬盘 设备 识别 信息 的 测试 程序 
经 过 上 一 节 的 学 习 ， 想 必 读 者 已 经 对 硬盘 设备 有 了 初步 认识 ， 本 节 将 通过 AIA 控 制 命 令 ECh 来 获 
取 硬 盘 设 备 识别 信息 。 硬 盘 设 备 识 别 信息 是 一 个 由 512 B 组 成 的 数据 块 ， 各 版 本 ATA 规 范 所 描述 的 硬盘 
设备 识别 信息 都 有 所 不 同 。 表 11-16 罗 列 出 部 分 ATA8 规 范 的 硬盘 设备 识别 信息 ， 完 整 的 硬盘 设备 识别 
言 息 还 请 读者 参照 ATA 规 范文 档 自行 阅读 。 


表 11-16 ”硬盘 设备 识别 信息 介绍 表 


字 序 功能 描述 
0 常规 配置 字 ，bit 15: 为 0 表示 ATA 设 备 
10~19 序列 号 ( 20 个 ASCII 字 符 串 ) 

23~26 回 件 版 本 ( 8 个 ASCI 字 符 串 ) 

27~46 型 号 ( 40 个 ASCIH 字 符 串 

49 支持 功能 状态 位 ， 其 中 


CC 


bit 9: 为 1 表示 文 持 LBA 功 能 ; 
bit 8: 为 1 表示 文 持 DMA 功 能 
60~61 用 户 可 寻 址 的 全 部 逻辑 扇 区 数 ( 28 位 寻 址 命令 ) 
76 SATA 功 能 ， 其 中 
bit 2: 为 1 表示 支持 SATA Gen2 3.0 Gb/s 传 输 
bit 1: 为 1 表示 支持 SATA Genl 1.5 Gb/s 传 输 i 
80 主 版 本 号 ， 寺 
bit 8: 为 1 表示 
bit7: 为 1 表 
bit 6: 为 1 表示 
bit 5: 为 1 于 
bit 4: 为 1 于 


D> 


党 洲 


Tt 
如 


日 


L134 


寺 ATA/ATAPI-8; 
寺 ATA/ATAPI-7; 
寺 ATA/ATAPI-6; 


P| 


T 


Hl 


T 


T 
中 


局 
Sl 刘 
洛 泪 汉江 站 


寺 ATA/ATAPI-5; 


DT 


dl 
pa 


寺 ATA/ATAPI-4 
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( 续 ) 
字 序 功能 描述 
81 次 版 本 号 
100~103 用 户 可 寻 址 的 全 部 逻辑 扇 区 数 ( 48 位 寻 址 命令 ) 
176~205 当前 介质 序列 号 ( 60 个 ASCII 字 符 串 ) 


222 传输 类 型 主 版 本 号 ， 其 中 

bit 15 到 bit 12 表 示 传 输 类 型 ，0 为 并 行 传输 ，1 为 串 行 传输 ， 其 他 值 保 留 
- 行 传输 串 行 传输 

bit4 ”保留 SATA Rev 2.6 
bit3 ”保留 SATA Rev 2.5 
bit2 ”保留 SATA II: Extensions 
bit1 ATA/ATAPI-7 SATA 1.0a 
bit0 ATA8-APT ATA8-AST 

223 传输 类 型 次 版 本 号 

255 校 验 和 
bit 15 到 bit 8: 校 验 和 补偿 数值 
bit 7 到 bit 0: ASh 

注 : 字 序 是 以 Word 为 单位 的 序号 ， 此 处 的 ASCII 字 符 串 在 Word 中 以 大 端 排序 。 


识别 信息 的 大 部 分 内 容 均 可 通过 一 些 常 用 硬件 设备 检测 软件 获取 。 为 了 便于 开发 与 调试 ， 此 
处 为 物理 平台 加 装 了 扩展 坞 ， 物 理 平台 借助 扩展 坞 可 搭载 第 二 块 SATA 硬 盘 并 对 其 进行 操作 ， 使 用 硬 
件 设备 检测 软件 RWEverything 就 可 以 获取 这 两 块 硬盘 设备 的 识别 信息 , 其 内 容 如 图 11-8 和 图 11-9 所 示 。 


配 ATA/JATAPI Identify Data 和 Js Ee 


回回 低 


INTEL SSDSA2Bw16063H Inio | Summary 


|o 0o0 0 02 03 04 05 0 07 08 oo ob oc op oF or Be es a 

00 045A 3FFF C837 0010 0000 0000 003F 0000 0000 0000 2020 2020 2020 4D50 4343 4E38 | nat LAA 

| 10 5933 4852 4536 584C 0003 3AE4 0004 4D43 3349 4331 3456 4854 5337 3231 3036 3047 || Model number HTS721060G95A00 
| 20 3953 4130 3020 2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 8010 te MR 
| 30 0000 0F00 4000 0200 0200 0007 FFFF 0001 003F FFC1 003E 0110 7C80 06FC 0000 0007 || Total Sectors [48b06FC7C80 [506B) 


PID mode 
40 “0003 0078 0078 0078 0078 0000 0000 0000 0000 0000 0000 0000 0202 0000 0048 0040 || Multiword DMA Selected/Supported = None/2 
| 5 ooFc 001A 746B 7F09 6063 7469 3C09 6063 203F 0011 0000 4080 FFFE 0000 80FE 0000 || Ulta DMA Selected/Supported = 5/5 
Cable report 0: 40pin 


| 60 0000 0000 0000 0000 7C80 06FC 0000 0000 0000 0000 0000 7AB8 0000 0000 0000 0000 || SMART feature Enabled/Supported =Yes/Yes 

| 70 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 | 0 Be 由 Hy 

80 0009 000B 0749 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 | 

90 0000 0000 0000 0000 4005 4000 8000 0000 3349 0000 0000 3122 0040 0000 0000 0000 

| A0 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
B0 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
C0 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 | 

| po ooo 
EO “0000 0000 0000 0000 0000 0000 0000 0000 000 


)000 0000 0000 0000 0000 0000 0000 000! 0 0000 0 0000 0000 0000 | 
000 0000 0000 0000 | 


Fo 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 BEAS | 


0 0000 0| 


11-8 ”从 硬盘 的 设备 识别 信息 图 
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图 11-8 是 一 块 60 GB 容量 的 机 械 硬盘 ， 


总 ATA/ATAPI 1dentify Data 


加 加 全 


站 HTS721060635A00 [nfo 


Summary 


ESES 


0 |00ijolt|02|03|04|05|06|07 |08| 吧 | 只 | 虽 |0ci|o| 号 |oF 
00 0040 3FFF C837 0010 0000 0000 003F 0000 0000 0000 4356 5052 3133 3235 3032 3959 
10 3136 3044 474E 2020 0000 0000 0000 3450 4331 3033 3032 494E 5445 4C20 5353 4453 


20 4132 4257 3136 3047 3348 2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 8010 


0000 0048 0048 
50 01FC 0029 706B 7C01 4123 7069 BC01 4123 40 列 0001 0001 0000 0003 0000 0000 0000 


60 0000 0000 0000 0000 9EB0 12A1 0000 0000 0000 0008 4000 0000 5001 5179 5964 4525 
70 0000 0000 0000 0000 0000 0000 0000 401C 401C 0000 0000 0000 0000 0000 0000 O00! 


0 0000 0000 ( 
00 0000 0001 0000 O00( 


Bus 00, Dev 1F, Fun 02 
Memory Base F2528000, Port 0 
Support ATA/ATAPI-8 

ATA device 
Model number 
Fimware revision ”4PC10302 
Serial number 
Total Sectors [48bi12A19EB0 (160GB} 
PIO mode 
Mult 


iword DMA 


Ula DMA 

Cable report 
SMART feature 
Supported speed 


nterface Speed 


INTEL SSDSA2BW160G3H 
CwPR1325029Y160DGN 
Selected/Supported = None/2 
Selected/Supported = 6/6 
40pin 

Enabled/Supported = Yes/Yes 


Gen2 (36). Genl (1.56] 
Gen2 [36bpsj 


图 11-9 


主 硬 盘 的 设备 识别 信息 图 


它 支持 ATA/ATAPI-7 协 议 ， 最 高 传输 速度 1.5 Gb/s。 而 图 


则 是 一 块 160 GB 容量 的 SSD 固 态 人 硬盘 ， 它 支持 ATA/ATAPI-8 协 议 ， 最 高 传输 速度 3 Gb/s。 
掌握 了 以 上 理论 知识 和 硬盘 设备 识别 信息 后 ， 马 上 就 来 编写 程序 获取 硬件 设备 识别 信息 。 借 鉴 此 


前 两 个 设备 驱动 的 开发 经 验 ， 我 们 将 从 宏 常量 与 结构 体 的 定义 姑 
写 复杂 的 结构 体 ， 仅 定义 IO 端口 和 硬盘 状态 两 类 


这 里 暂时 先 纺 


2 


大 明星 ， 


代码 清单 11-22 ”第 11 章 \ 程 序 \ 程 序 11-3\ 物 理 平台 \kernel\disk.h 


define 
define 
define 
define 
define 
define 
define 
define 


define 


define 
define 
define 
define 
define 
define 
define 
define 


define 


define 
define 
define 
define 
define 


PORT_DISKO_DATA Ox1f0 
PORT_DISKO_ERR_FEATURE Ox1lf1 
PORT_DISK0O_SECTOR_CNT Ox1f2 
PORT_DISK0_SECTOR_LOW 0x1f3 
PORT_DISK0_SECTOR_MID Ox1f4 
PORT_DISK0_SECTOR_HIGH Ox1lf5 
PORT_DISK0_DEVICE Ox1f6 
PORT_DISK0_STATUS_CMD Ox1f7 
PORT_DISKO_ALT_STA_CTL Ox3f6 
PORT_DISK1_DATA Ox170 
PORT_DISK1_ERR_FEATURE Ox171 
PORT_DISK1_SECTOR_CNT Ox172 
PORT_DISK1_SECTOR_LOW Ox173 
PORT_DISK1_SECTOR_MID Ox174 
PORT_DISK1_SECTOR_HIGH 0x175 
PORT_DISKL_DEVECE 0x176 
PORT_DISK1_STATUS_CMD Ox177 
PORT_DISK1_ALT_STA_CTL 0x376 
DISK_STATUS_BUSY CL < 7) 

DISK_STATUS_READY (Ly < 6 

DISK_STATUS_SEEK (1 << 4) 

DISK_STATUS_REQ 人 

DISK_STATUS_ERROR (Cb 0) 


11-9 


F 始 着 手 实现 。 为 了 快速 看 到 运行 效果 ， 
代码 清单 11-22 是 寺 


其 详细 定义 。 
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定义 了 这 些 宏 常 量 后 ， 现 在 将 实现 从 硬盘 的 驱动 初始 化 函数 ， 此 函数 可 参照 键盘 、 鼠 标 驱动 程序 


编写 。 其 中 ， 从 硬盘 设备 的 中 断 向 量 号 为 IRQ15， 触 发 模式 依然 采用 边沿 触发 ， 完 整 的 初始 化 函数 实 
现 请 参见 代码 清单 11-23。 


代码 清单 11-23 


第 11 章 \ 程 序 \ 程 序 11-3\ 物 理 平台 \kernel\disk.c 


void disk_ init() 


{ 


} 


struct IO_APIC_RET_entry entry; 


entry. 
entry. 
entry. 
entry. 
entry. 
entry. 


entry 


entry. 
entry. 


entry. 
entry. 


entry 
regis 
io_ou 


io_ou 
io_ou 


io_out 


LONOMN 
TOO 
io_ou 
io_ou 


Vector = 0x2f; 


deliver mode = APIC_ICR_ IOAPIC Fixed ; 


dest_mode = ICR_IOAPIC DELV_PHYSICAL; 
deliver_status = APIC_ICR IOAPIC Idle; 
polarity = APIC_IOAPIC_ POLARITY_HIGH; 
irr = APIC_IOAPIC_IRR RESET; 

.trigger = APIC_ICR_ IOAPIC Edge; 

mask = APIC_ICR_IOAPIC Masked; 
reserved = 0; 


destination.physical.reservedl1 = 0; 
destination.physical.phy_dest = 0; 
.destination.physical.reserved2 = 0; 
ter_irgq(0x2f, &entry , &disk handler, 0, 
t8(PORT_ DISK1_ALT_ STA_CTL,0); 

& PORT_DISK]1_ERR_FEATURE, 0);} 

t PORT_DISK1_SECTOR_CNT, 0); 
t8(PORT_DISK1_SECTOR_LOW,0); 


PORT_DISK1_SECTOR_HIGH,0); 
PORT_DISK1_DEVICE, 0xe0); 
PORT_DISK1_STATUS_CMD, 0xec) ; 


( 

( 

( 
t8(PORT_DISK1_SECTOR_MID, 0); 

( 

( 

( 


&disk_int_controller, "diskl1"); 


//identify 


这 上段 代码 不 光 注册 了 从 硬盘 设备 的 中 断 处 理 函 数 ， 还 向 从 硬盘 设备 发 送 了 ATA 控 制 命令 ECh 来 取 
得 硬盘 设备 识别 信息 ， 整 个 命令 发 送 过 程 分 别 向 表 11-13 中 的 从 控制 器 的 命令 端口 发 送 配置 信息 及 命 


令 。 从 硬盘 准备 好 数据 后 ， 便 向 中 断 控 制 器 发 送 


代码 清单 11-24 所 示 的 中 断 处 理 函 数 。 
代码 清单 11-24 第 11 章 \ 程 序 \ 程 序 11-3\ 物 理 平台 \kernel\disk.c 


void disk_ handler (unsigned long nr, unsigned long parameter, 


{ 


int i 


三 


struct Disk_Identify_Info a; 


unsigned short p = 
port_insw(PORT_DISK1_DATA, &a,256); 


Color_printk (ORANGE,WHITE, "\nSerial Number:"); 


for(i 


NULL; 


= 0;i<10;i++) 


! 断 请 求 ， 再 由 中 断 控 制 器 转发 至 处 理 絮 ， 进 而 执行 


struct pt_regs * regs) 
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color_printk (ORANG 
Oxff,a.Serial 


E,WHITE, "Sc%c", (a.Serial Number[i] >> 8) & 
umber[i] & Oxff); 


Color_printk (ORANGE,WHITE, "\nFirmware revision:"); 


fo6r(ti e077ic<diir+} 


color_printk (ORANGE,WHITE, "S$c%c", (a.Firmware Version[i] >> 8 ) & 
[i] 


Oxff,a.Firmware_ Version[i 


color_printk (ORANGE, WH 


& Oxff); 


ITE,"\nModel number:"); 


FG 


color_printk (ORANGE,WHITE, "$c%c", (a.Model Number[i] >> 8) & 
Oxff,a.Model_Number[i] & Oxff); 


LTE NT) 


color_printk (ORANGE, WH 


p = (unsigned short)&a 
for(i = 0;i<256;i++) 

color_printk (ORANG 

} 


中 断 处 理 函 数 先 使 用 IO 端口 读 


7 


E,WHITE, "$04x ",*(p+i)); 


取 函 数 port_insw 从 IO 端口 中 读 取出 256 个 字 的 数据 , 并 将 其 保存 


在 之 前 准备 好 的 硬盘 设备 识别 信息 结构 体 struct Disk_Idqentify_Info (定义 于 disk.h 头 文件 内 ) 


中 。 此 处 的 port_insw 函 数 通过 封装 汇编 指令 INSw 实 现 ，INSw 指 令 可 从 IO 端口 中 读 取 一 个 字 (2B ) 
的 数据 ， 再 结合 REP 指 令 便 可 连续 多 次 读 取 IO 端 口内 的 数据 。 

接着 ， 将 硬盘 设备 识别 信息 中 的 序列 号 、 固 件 版 本 、 型 号 等 信息 打印 出 来 。 此 处 要 特别 注意 ， 硬 
盘 采 用 大 端 排序 方式 来 保存 字符 串 中 的 每 个 字 ， 所 以 每 个 字 的 高 字 节 保 存 着 第 一 个 字符 ， 低 字 节 保存 


着 第 二 个 字符 。 


为 了 方便 与 图 11-8 中 的 数据 进行 对 比 ， 最 后 以 字 为 单位 ， 硬 盘 设备 识别 信息 全 部 打印 出 来 ， 显 示 


效果 如 图 11-10 所 示 。 


图 11-10 


00010f 


jx0000000000001( 


x0000000040000000， 0x000000001fe00000， 


p:0x0000000000000001 ”zo 


p:0x000000000000000 


p:Ox000000000001: 


从 硬盘 的 设备 识别 信息 测试 程序 运行 效果 图 
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根据 表 11-16 介 绍 的 硬盘 设备 识别 信息 ， 我 们 从 图 11-10 中 提取 出 对 应 数据 ， 并 将 其 转换 成 如 
表 11-17 所 示 结 构 。 


表 11-17 ”硬盘 设备 识别 信息 数据 对 照 表 


字 序 描 述 数 值 
0 常规 配置 字 045A (ATA 设 备 ) 
10~19 序列 号 2020 2020 2020 4D50 4343 4E38 5933 4852 4536 584C (" MPCCN8Y3HRE6XL") 
23~26 固件 版 本 4D43 3349 4331 3456 ("MC3IC14V") 
27~46 型 号 4854 5337 3231 3036 3047 3953 4130 3020 2020 2020 2020 2020 2020 2020 2020 
2020 2020 2020 2020 2020 ( "HTS721060G9SA00 "9 
49 支持 功能 状态 位 0F00 ( 支持 LBA 功 能 、 支 持 DMA 功 能 ) 
76 SATA 功 能 0202 ( 支持 SATA Genl 1.5Gb/s 传 输 ) 
80 主 版 本 号 00FC ( 支持 ATA/ATAPI-7/6/5/4 ) 
81 次 版 本 号 001A (次 版 本 号 ) 
100~103 可 寻 址 逻辑 扇 区 数 。” 7C80 06FC ( 6FC7C80 个 扇 区 约 60011642880OB ) 
255 校 验 和 66A5 ( 校 验 和 ) 


注 : 硬盘 的 存储 


细心 的 读者 会 发 现 表 11-16 和 图 11-8 中 的 校 验 和 字 的 数值 是 不 相等 的 ,这 是 由 于 硬件 设备 识别 信息 
是 固定 值 ， 它 们 会 随 着 硬盘 的 配置 而 自动 调整 ， 但 全 部 数值 的 校 验 和 字 必 须 为 0， 因 


中 的 一 些 功能 


容量 是 以 1000 为 递 进 计 数 单 位 而 非 1024。 


此 校 验 和 字 也 会 随 着 配置 的 变更 而 自动 调整 。 

3. 访问 硬盘 扇 区 数据 的 测试 程序 

经 过 硬盘 设备 识别 信息 测试 程序 的 演练 ， 现 在 将 进一步 实现 硬盘 扇 区 的 访问 测试 程序 。 此 处 将 硬 
盘 扇 区 的 访问 过 程 分 为 读 取 扇 区 数据 和 写 人 扇 区 数据 两 部 分 。 

@ 读 取 遍 区 数据 测试 程序 

读 取 扇 区 数据 测试 程序 的 实现 方法 , 依然 是 向 表 11-13 中 的 从 控制 器 命令 端口 发 送 配置 信息 和 扇 区 
读 取 命令 ， 并 在 数据 发 送 过 程 中 ， 检 测 每 个 阶段 的 执行 状态 ， 代 码 清单 11-25 实 现 了 这 一 过 程 。 


代码 清单 11-25 


第 11 章 \ 程 序 \ 程 序 11- 涉 物理 平台 \kernel\disk.c 


void disk_ init() 


io_out8(PORT_DISK1_ALT_STA_CTL,0); 


while(io_in8 (PORT DISK1_STATUS_CMD) & DISK_STATUS_BUSY); 
Color_printk (ORANGE,WHITE, "Read One Sector Starting:%02x\n",io_ in8 (PORT DISK1_ 
STATUS_CMD) ); 


io_out8 (PORT_DISK1_DEVICE, 0xe0); 


io_out8( 
io_out8( 
io_out8 (PORT_DISK1_SECTOR_ LOW,0); 
io_out8( 
io_out8( 


PORT_DISK1_ERR_FEATURE, 0); 
PORT_DISK1_SECTOR_CNT,1); 


PORT_DISK1_SECTOR_MID,0); 
PORT_DISK1_SECTOR_HIGH, 0); 
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while(!(io_in8 (PORT_DISK1_STATUS_CMD) & DISK_STATUS_READY)); 
Color_printk (ORANGE,WHITE, "Send CMD:%02x\n",io_in8 (PORT_DISK1_STATUS_CMD)); 


io_out8 (PORT_DISK1_STATUS_CMD, 0x20); /7 read 
} 
这 上段 代码 在 使 能 了 从 控制 器 的 中 断 请 求 后 ,会 对 从 硬盘 的 状态 进行 检测 ， 只 有 在 从 硬盘 空 闪 时 才 
能 向 其 发 送 配 置信 息 。 此 处 的 配置 信息 将 对 从 硬盘 ( 全 称 为 从 控制 器 中 的 主 硬盘 ) 进行 操作 ， 把 它 的 
磁头 移动 至 LBA 0 遍 区 ( 第 0 柱 面 0 磁道 1 遍 区 )， 操 作 扇 区 数 为 1。 随 后 ， 待 到 驱动 器 准备 好 ( 磁头 移动 
至 指定 位 置 ) 后 ， 向 从 硬盘 发 送 ATA 控 制 命令 20h 读 取 目 标 扇 区 内 的 数据 。 
当 磁 头 将 目标 扇 区 内 的 数据 读 取 到 硬盘 缓存 区 后 ， 从 硬盘 便 向 中 断 控 制 器 发 送 中 断 请 求 ， 此 时 处 
理 器 将 执行 从 硬盘 的 中 晰 处 理 函 数 ， 从 IO 端口 读 取 硬 盘 缓存 区 中 的 数据 ， 有 具体 实现 如 代码 清单 11-26 
所 示 。 


代码 清单 11-26 ”第 11 章 \ 程 序 \ 程 序 11- 外 物理 平台 \kerneldisk.c 


void disk handler (unsigned long nr, unsigned long parameter, struct pt_regs * regs) 


UD 


{ 
rit. TY =00y 
unsigned char al[512]; 
port_insw(PORT_DISK1_ DATA,&a,256); 
color_printk (ORANGE,WHITE, "Read One Sector Finished:%02x\n",io_in8 (PORT DISK1_ 
STATUS_CMD) ); 
for(i = 0;i<512;i++) 
color_printk (ORANGE,WHITE, "%$02x ",a[il]); 
} 


这 段 代 码 比 较 直 观 ， 先 借助 port_insw 函 数 从 VO 端口 读 取 256 个 字 ， 然 后 显示 控制 絮 状 态 端 口 信 
息 以 及 读 取出 来 的 扇 区 数据 。 图 11-11 是 读 取 扇 区 数据 测试 程序 的 运行 效果 。 


)000000 ,St 


:0x01 Integrated APIC 
)x00000000 
0000000000 


0000000000010: 
0000000000000' 000000' 
0000002000000C 00000001fe 


0000004000000( 00000001fe 


)0000001fff 
end_data:0xffff800000121 


图 11-11 从 硬盘 的 扇 区 数据 读 取 测 试 程序 运行 效果 图 
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中 的 数据 以 验证 读 出 数值 是 否 正 确 。 


@ 写 入 该 区 数据 测试 程序 
其 实 ， 写 扇 区 操作 过 程 与 读 
深 对 写 扇 区 操作 过 程 的 到 


Offset 
000000000 
000000010 
000000020 
000000030 
000000040 
000000050 
000000060 
000000070 
000000080 
000000090 
0000000a0 
0000000B0 
0000000C0 
0000000D0 
0000000E0 
0000000F0 
000000100 
000000110 
000000120 
000000130 
000000140 
000000150 
000000160 
000000170 
000000180 
000000190 
0000001A0 
0000001B0 
0000001C0 
0000001D0 
0000001E0 
0000001F0 


0 
33 
06 
BD 
E2 
B4 
F7 
26 
7C 
FF 
Ba 
4E 
55 
BA 
E8 
00 
43 
00 
53 
61 
18 
05 
10 
24 
74 
20 
6E 
67 
65 
21 
00 
00 
00 


| 
Co BE DO 
B9 00 02 
BE 07 80 
Fl CD 18 
41 BB AA 
cl 01 00 
66 68 00 
68 01 00 
83 C4 10 
76 01 BA 
11 :25.0C 
32 E4 BA 
75 6E FF 
83 00 BO 
FB B8 00 
50 41 75 
66 68 00 
66 55 66 
68 00 00 
A0 B7 07 
00 07 8B 
EB F2 F4 
02 C3 49 
69 6F 6E 
6C 6F 61 
67 20 73 
20 6F 70 
6D 00 00 
00 0B 0D 
00 00 00 
00 00 00 
00 00 00 


4 
BC 
Fc 
7E 
88 
55 
74 
00 
68 
9E 
4E 
80 
56 
76 
DF 
BB 
32 
02 
68 
07 
EB 
FO 
EB 
6E 
20 
64 
79 
65 
00 
0a 
00 
00 
00 


3 
00 
F3 
00 
56 
CD 
03 
00 
10 
EB 
02 
EE 
00 
00 
E6 
CD 
81 
00 
00 
CD 
08 
AC 
FD 
76 
74 
69 
73 
72 
63 
83 
00 
00 
00 


BE 
50 
7C 
55 
5D 
46 
66 
B4 
B8 
6E 
80 
和 
8D 
E8 
66 
02 
66 
00 
5 有 
B6 
00 
C9 
6C 
62 
67 
65 
74 
9a 
08 
00 
00 
00 


图 11-12” 从 硬盘 的 LBA 0h 扇 区 数据 截图 


图 11-12 是 使 用 DiskGenius 磁 盘 管 理 软件 显示 出 的 LBA 0 扇 区 数据 ， 读 者 可 对 比 图 11-11 和 图 11-12 


9 &aAB CD E F0123456789ABCDEF 
BE D8 BE 00 7C BF 00 3A.DY.|.A.0%.|e. 
1C 06 CB FB B9 04 00 .1..iioxph..E6l.. 
OF 85 OE 01 83 C5 10 y%..~..|......A. 
46 11 05 C6 46 10 O00 afii..V.URF..AF.. 
OF 81 FB 55 AA 75 09 “A»aUi.]r..h 

66 60 80 7E 10 00 74 =A..t.bF.f*.~.. 
76 08 68 00 00 68 00 8&fh....fiv.h 
8A 56 00 8B F4 CD 13 |h..h..’B 
02 BB 00 7C 8A 56 00 .A..8.,..».|.V. 
CD 13 66 61 73 1C FE .v..N..n.i.fas.b 
84 BA 00 B2 80 EB 84 N.u..~......2.68. 
EB 9E 81 3E FE 7D 55 U28.V.1.]8..>b}U 
75 17 FA BO D1 E6 64 aunirr .所 . .utehNasd 
00 BO FF E6 64 E8 75 8..°Bee'e|.°Yedeu 
CO 75 3B 66 81 FB 54 .6,.»1.f#Au;f .dT 
72 2C 66 68 07 BB 00 CPAu2.d..r,fh.». 
08 00 00 00 66 53 66 .fh....fh....fSf 


h. 
Ls 
V 


66 68 00 7C 00 00 66 SfUfh....fh.|..f 
F6 EA O00 7C 00 00 CD ah...i.2268.|..i 
EB 03 A0 B5 07 32 E4 . +.8. q.é. .28 
09 BB 07 00 B4 OE CD ....87C.t.»..°.I 


64 EB 00 24 02 ED F8 .B008Yy+Eade.$.am 
64 20 70 61 72 74 69 98.8Invalid parti 
65 00 45 72 72 6F 72 tion table.Error 
6F 70 65 72 61 74 69 loading operati 
00 4D 69 73 73 69 6E ng system.Missin 
6E 67 20 73 79 73 74 gg operating sys 

5F 82 7B 00 00 80 20 CTf . 

00 00 18 .。 

00 00 00 
00 00 00 
00 00 00 


岂 区 操作 过 程 非常 相似 ， 区 别 只 在 于 操作 数据 MO 端口 的 时 机 。 为 了 加 


到 预期 效果 ， 目 标 肩 


区 的 LBA 地 址 也 


解 ， 现 选用 48 位 LBA 寻 址 模式 的 AIA 控 制 命 令 34h 向 扇 区 写 和 数据。 为 了 达 
\ 须 突破 28 位 (硬盘 容量 约 在 138 GB 以 上 )， 还 好 主 硬盘 (SSD 固 


态 硬盘 ) 的 容量 可 以 满足 要 求 ， 它 的 LBA 可 寻 址 扇 区 总 数 为 0x12A1,9EB0， 本 次 测试 选择 向 LBA 地 址 


为 1234,5678h 的 


户 区 写 入 数据 。 


由 于 LO 端口 寄存 器 单 次 只 能 支持 28 位 LBA 寻 址 ， 对 于 采用 48 位 LBA 寻 址 的 ATA 命 令 而 言 ，48 位 的 
LBA 地 址 就 必须 拆 分 为 两 个 24 位 的 地 址 段 ， 再 逐 段 发 送 至 命令 端口 。 表 11-18 描 述 了 采用 48 位 LBA 寻 址 
时 的 命令 端口 写 和 次数 以 及 写 人 的 LBA 地 址 位 域 。 


表 11-18 ”48 位 LBA 端 口 操作 表 


端口 双 次 操作 (第 一 次 ) 双 次 操作 〈 第 二 次 ) 
1F1 0 0 
1F2 操作 扇 区 数 的 高 8 位 操作 扇 区 数 的 低 8 位 
1F3 LBA (31:24) LBA (7:0) 
1F4 LBA (39:32) LBA (15:8) 
1F5 LBA (47:40) LBA (23:16) 
端口 单 次 操作 
1F6 bit 7~5: 010 
bit 4: 主 硬盘 =0， 从 硬盘 =1 
bit 3~0: 00 
1F7 ATA 控 制 命令 
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为 了 向 LBA 1234,5678h 扇 区 写 和 数据， 特 将 硬盘 驱动 程序 修改 为 操作 主 硬盘 ， 并 结合 表 11-18 的 描 


述 向 主 硬盘 发 送 ATA 控 人 


判 命令 以 及 待 写 人 扇 区 的 数据 ， 具 体 程序 实现 请 参见 代码 清单 11-27。 


代码 清单 11-27 第 11 章 \ 程 序 \ 程 序 11-5\ 物 理 平台 \kernel\disk.c 


void disk_ init() 


} 


while 
Ss 
io_ou 


io_ou 
io_ou 
LDOU 
io_ou 
io_ou 


io_out 
io_out 


io_ou 


io_out 
io_out 


ter_irg (Ox2 


e, &entry 


, &disk handler, 0, &disk_int controller, "disk0"); 


t8(PORT_DISKO_ALT_STA_CTL,0); 


(io_in8 (PORT_DISKO_STATUS_CMD) & DISK_STATUS_BUSY); 
color_printk (BLACK,WHITE, "Write One Sector 
tarting:%02x\n",io_in8 (PORT_ DISKO_STATUS_CMD)); 


t8(PORT_DIS 


t8(PORT_DIS 
t8(PORT_DIS 
t8(PORT_DIS 
t8(PORT_DIS 
t8(PORT_DIS 


t8(PORT_DIS 
t8(PORT_DIS 
t8(PORT_DIS 
t8(PORT_DIS 
t8(PORT_DIS 


K0_SECTOR_ 


KO0_SECTOR_ 


K0_SECTOR_ 


K0_SECTOR_. 


KO_DEVICE, Ox40); 


KO_ERR_FEATURE, 0); 
KO_SECTOR_CNT, 0); 


LOW, 0x12); 


KO_SECTOR_MID,0); 


HIGH, 0); 


KO_ERR_FEATURE, 0); 
KO_SECTOR_CNT,1); 


LOW, Ox78); 


KO_SECTOR_MID, 0x56); 


HIGH, Ox34); 


while(!(io_in8 (PORT_DISKO_STATUS_CMD) & DISK_STATUS_READY)); 
Color_printk (BLACK,WHITE, "Send CMD:%02x\n",io_in8 (PORT_DISK0_STATUS_CMD) ) ; 


io_out8 (PORT_DISK0_STATUS_CMD, 0x34); ////write 


whilel(!(io_in8 (PORT_ DISKO_STATUS_CMD) & DISK_STATUS_REO) ) ; 
memset (&a, 0xA5, 512); 
port_outsw(PORT_DISKO_DATA, &a,256); 


这 段 程序 已 改 为 主 硬盘 


状态 时 , 通过 命令 端口 向 硬盘 发 送 肩 


K 动 的 初始 化 函数 ， 其 中 断 向 量 号 为 0x2e。 在 主 硬盘 初始 化 结束 并 处 于 空闲 


区 写 


命令 0x34， 并 等 竺 数据 缓存 区 准备 就 绪 ( 等 待 状态 端口 的 数据 


请 求 位 置 位 )。 一 旦 数据 缓存 区 准备 就 绕 ， 立 即 调 用 port_outsw 函 数 向 数据 端口 发 送 256 个 数值 为 
的 字 。 此 处 的 函数 port_outsw 内 封装 着 汇编 指令 OUTSW， 它 与 port_insw 消 数 的 功能 相反 。 

当 数 据 全 部 写 人 到 目标 扇 区 后 ， 硬 盘 会 向 处 理 器 发 送 中 断 请 求 ， 处 理 器 随即 调用 中 断 处 理 函 数 
disk_handler 处 理 中 断 请 求 ， 代 码 清 单 11-28 是 中 断 处 理 函 数 的 程序 实现 。 


代码 清单 11-28 ”第 11 章 \ 程 序 \ 程 序 11-5\ 物 理 平台 \kernel\disk.c 


void disk_handler (unsigned long nr, unsigned long parameter, struct pt_regs * regs) 


0OXA5A5 


{ 


color_printk (BLACK,WHITE, "Write One Sector 
Finished:%02x\n",io_in8 (PORT_DISKO_STATUS_CMD) ); 
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写 而 区 操作 的 中 断 处 理 函 数 非常 简单 ， 它 只 打印 出 控制 器 状态 端口 信息 以 表示 写 扇 区 操作 完成 ， 


图 11-13 是 写 入 肩 区 数据 测试 程序 的 运行 效果 。 


)0000001 


0001 


)0000001 


000000000000004 
)000000010: 
0000000001 
0000000000000 
0000001fe00000 ,pat 


ngth: 0x000000001fe00000, pac 


)00000009a600000,p: 


)00000011e600000,p: 


x0000000000000001 


)000000000000001 


O0000000001fff 
00000112261,end 


图 11-13” 主 硬盘 的 扇 区 数据 写 入 测试 程序 运行 效果 图 


从 图 11-13 很 难 确定 数据 是 否 真 地 写 人 到 目标 扇 区 。 为 了 验证 此 事 ， ee 


软件 查看 目标 扇 区 中 的 数据 更 为 直观 ， 图 11-14 所 示 即 为 目标 扇 区 中 的 数据 。 
作 目 标 扇 区 前 请 确保 扇 区 内 的 数据 是 无 用 的 ， 以 免 造成 不 必要 的 损失 。 


CDEF 


图 11-14” 主 硬盘 的 LBA 12345678h 扇 区 数据 截图 


里 必须 
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11.2.2 ”完善 硬盘 驱动 程序 


通过 对 硬盘 设备 的 几 次 实验 性 操作 后 ， 现 在 我 们 已 经 掌握 了 控制 硬盘 的 方法 和 步骤 ， 但 这 些 测试 
代码 尚且 无 法 作为 一 个 可 供 系 统 使 用 的 硬盘 驱动 程序 ,幸好 有 开源 的 Linux 代 码 可 以 参考 学 习 。 那么 ， 


下 面 就 以 Linux 的 块 设备 驱动 结构 模型 为 蓝图 ， 来 设计 并 实现 本 系统 的 硬盘 设备 驱动 程序 。 


1. Linux 的 块 设备 结构 概述 


机 械 硬 盘 作 为 一 种 低速 的 大 容量 存储 设备 ， 它 的 磁头 寻 道 时 间 很 可 能 比肩 区 的 读 写 时 间 还 要 长 ， 
这 使 得 磁头 寻 道 时 间 不 容 忽视 。 而 且 ， 写 扇 区 操作 往往 比 读 扇 区 操作 消耗 更 多 的 时 间 。 那 么 ,缩短 磁 


头 移动 距离 就 可 有 效 节 省 磁头 寻 道 时 间 、 提 高 硬盘 的 数据 吞吐 量 ， 调 整 鹿 区 读 写 


= 


dp 


宗旨 ， 从 多 个 方面 优化 了 扇 区 操作 过 程 ， 图 11-15 示 意 了 Linux 块 设备 驱动 的 结构 模型 。 


顺序 则 可 提高 任务 的 
实时 性 。Linux 采 用 一 套 复杂 的 驱动 结构 模型 来 实现 块 设备 的 操作 ， 这 套 模型 以 缩短 磁头 寻 道 时 间 为 


文件 系统 \(VFS&FS) / 
Y 


块 设备 驱动 
请 求 包 (request) 
IO 调度 器 
将 
请 求 队列 
request 0 
读 取 命 令 
request 1 写 人 命令 | < 
革 他 命令 
request n 
| 一 
y 读 取 命令 中 断 处 理 函 数 
发 送 操作 命令 法 取 命 令 中 断 处 理 国 数 | 
其 他 命令 中 断 处 理 函 数 


图 11-15 ”Linux 块 设备 驱动 的 结构 模型 示意 图 


从 图 11-15 可 以 看 出 ， 块 设备 驱动 由 诸多 子 模块 组 成 ， 其 中 的 IO 调度 器 负责 优化 硬盘 扇 区 操作 过 


程 。 更 多 子 模块 功能 介绍 请 见 表 11-19。 
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表 11-19 ”Linux 块 设备 驱动 的 结构 模型 说 明 表 


模 块 名 功能 描述 

应 用 程 请 应 用 程序 可 访问 硬盘 内 的 文件 ， 或 直接 访问 硬盘 扇 区 

文件 系统 文件 系统 用 于 管理 硬盘 内 的 文件 , 应 用 程序 只 有 穿 过 虚拟 文件 系统 ( VFS ) 和 文件 系统 ( FS ) 
才能 访问 到 文件 

块 设备 驱动 应 用 程序 和 文件 系统 通过 硬盘 设备 的 设备 号 调用 块 设备 驱动 程序 ,进而 将 扇 区 操作 请 求 发 
送 至 硬盘 

请 求 包 (request ) 块 设备 驱动 将 扇 区 操作 请 求 封装 成 请 求 包 , 每 个 请 求 包 可 能 含有 多 个 操作 请 求 ,每 个 操作 
请 求 缘 可 追溯 到 对 应 的 内 存 页 面 

IO 调度 器 IO 调度 器 根据 请 求 包 记 录 的 扇 区 位 置 和 读 写 方向 ， 将 其 插入 到 请 求 队列 的 合适 位 置 ， 
者 将 其 与 请 求 队列 中 的 某 个 请 求 包 合并 

发 送 操作 命令 硬盘 驱动 程序 从 请 求 队列 中 取出 请 求 包 , 并 按照 请 求 包 的 描述 向 硬盘 发 送 操作 命令 及 数据 

中 断 处 理 函数 硬盘 驱动 程序 根据 操作 命令 ， 选 择 执行 不 同 的 中 断 处 理 程序 分 支 

等 待 队列 访问 硬盘 属于 异步 操作 ， 在 向 硬盘 发 送 操作 命令 时 ,硬盘 驱动 会 挂 起 应 用 程序 ， 并 在 中 断 
处 理 函 数 内 将 其 唤醒 


块 设备 驱动 的 1/O 调 度 器 可 由 若干 种 调度 算法 组 成 , 诸如 Linus 电 梯 调 度 算法 、Deadline( 最 终 期 限 ) 
调度 算法 、Anticipatory ( 预测 ) 调度 算法 等 。 这 些 调度 算法 均 有 各 自 优化 的 侧重 点 ， 


它们 将 逐渐 被 更 先进 的 调度 算法 
2. 重 构 硬盘 驱动 程序 


为 了 加 深 对 Linux 块 设备 驱动 模型 


取代 。 


随 着 时 间 的 推移 ， 


I 的 学 习 ， 现 将 参照 图 11-15 描 述 的 模型 结构 来 实现 硬盘 设备 驱动 


程序 。 本 系统 硬盘 驱动 程序 将 在 PIO 操 作 模 式 的 基础 上 ， 通 过 ATA 控 制 命令 来 操作 硬盘 ， 目 前 暂且 支 
持 读 取 扇 区 、 写 人 扇 区 和 获取 硬盘 设备 识别 信息 

在 编写 硬盘 驱动 程序 的 开始 阶段 ， 我 们 将 根据 硬盘 的 异步 性 操作 、 访 问 速度 
宏 常 量 ， 代 码 清单 11-29 和 代码 清单 11-30 是 它们 的 定义 。 


驱动 程序 抽象 出 一 系列 结构 体 和 


代码 清单 11-29 ”第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平 


#define ATA_READ_CMD 
#define ATA_WRITE_CMD 


0x24 
0x34 


#define GET_IDENTIFY_DISK_CMD 


struct block_ buffer_node 


{ 
unsigned int count; 
unsigned char cmgd; 
unsigned long LBA; 


unsigned char * puffer; 


void(* end handler) (unsigned long nr, unsigned long parameter); 


struct List list; 


于 


struct request_queue 


{ 


OxEC 


等 功能 。 


台 \kernel\disk.h 


较 慢 等 特点 ， 为 硬盘 
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struct List queue_ list; 
struct block_ buffer node *in using; 
long block_ request_count; 


js 


struct request_queue disk_ request; 
struct block_ device operation IDE device operation; 


上 述 代码 为 硬盘 驱动 程序 抽象 出 了 一 个 用 于 保存 硬盘 操作 请 求 的 请 求 队列 结构 体 struct 
request_queue， 其 中 记录 着 硬盘 操作 请 求 队 列 链表 、 剩 余 请 求 数 以 及 正在 处 理 的 硬盘 操作 请 求 。 
而 且 ， 硬 盘 操作 请 求 队列 中 的 每 个 操作 请 求 项 也 被 抽象 成 了 结构 体 ， 它 保存 着 此 次 操作 请 求 的 全 部 信 
息 以 及 操作 请 求 执行 结束 后 的 处 理 方法 。 
为 了 方便 文件 系统 和 应 用 程序 操作 硬盘 驱动 程序 ， 本 系统 还 为 硬盘 访问 者 提供 了 统一 的 硬盘 操作 
抽象 接口 (方法 )， 代 码 清单 11-30 是 其 详细 定义 。 


代码 清单 11-30 ”第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\block.h 


struct block_ device_operation 


{ 


long (* open) (); 

long. (* ClOoBe}. {)s 

long (* ioctl) (long cmd,long arg); 

long (* transfer) (long cmd,unsigned long blocks,1long count,unsigned char * puffer); 


站 

尽管 本 系统 物理 平台 搭载 的 是 SATA 接 口 的 机 械 硬 盘 ， 但 其 驱动 程序 却 采 用 IDE 设 备 接口 的 PIO 操 
作 模 式 。 因 此 ， 了 驱动 程序 将 硬盘 操作 抽象 接口 命名 为 IDE_device_operation， 代码 清单 11-31 是 其 
完整 定义 。 

代码 清单 11-31 第 i1 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\disk.c 


struct block_device operation IDE device operation = 


{ 


.open = IDE_open, 

.Close = IDE_ close, 
TOG LDE Toot 
.transfer = IDE transfer, 


}; 
在 这 4 个 操作 方法 中 ，open 和 close 接 口 用 于 打开 和 关闭 驱动 程序 ， 目 前 尚未 实现 功能 性 代码 ; 
而 ioct1 接 口 则 用 于 向 硬盘 发 送 控制 命令 ， 目 前 它 仪 支持 获得 硬盘 设备 识别 信息 的 功能 ， 有 兴趣 的 读 
者 可 自行 实现 其 他 控制 命令 。 
此 处 将 重点 介绍 一 下 transfer 接 口 。transfer 接 口 主要 负责 处 理 硬盘 的 访问 操作 ， 代 码 清单 
11-32 是 它 的 处 理 方法 实现 ，ioct1 接 口 的 处 理 方 法 实现 与 其 极为 相似 。 


代码 清单 11-32 第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\disk.c 


long IDE transfer(long cmd,unsigned long blocks,long count,unsigned char * buffer) 


{ 


struct block_ buffer node * node = NULL; 
if(cmd == ATA_READ_ CMD || cmd == ATA_ WRITE_ CMD) 
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node = make_request (cmd,blocks,count,buffer); 
submit (node); 
wait_for_ finish(); 

} 


else 


人 


return 0; 


} 


return 1; 


} 

函数 IDE_transfer 只 能 处 理 ATA_READ_CMD 和 ATA_WRITE_CMD 两 个 操作 命令 ( ATA 控 制 命令 的 
宏 定义 )， 而 IDE_ioct1 函 数 则 只 人 允许 处 理 GET_IDENTIFY_DISK_CMD 控 制 命令 。 上 述 三 个 命令 的 执 
行 过 程 是 一 致 的 ， 即 先 通过 make_request 函 数 创 建 硬盘 操作 请 求 项 ， 再 使 用 submit 函数 将 人 硬盘 操作 
请 求 项 插入 到 硬盘 操作 请 求 队列 中 ， 随 后 调用 函数 wait_for_finish 等 竺 硬盘 操 作 结 束 。 一 旦 
wait_for_finish 困 数 返 回 ， 那 就 意味 着 此 次 硬盘 已 将 操作 结果 或 数据 返回 给 调用 者 。 下 面 将 对 这 
三 个 函数 逐一 进行 讲解 。 

按照 浮 数 的 执行 顺序 ， 我们 先 来 看 硬盘 操作 请 求 项 的 创建 函数 make_request， 它 主要 负责 为 操 
作 请 求 项 开辟 存储 空间 并 对 其 成 员 变 量 进行 赋值 ， 函 数 实现 如 代码 清单 11-33。 


代码 清单 11-33 ”第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\disk.c 


struct block_ buffer node * make request (long cmd,unsigned long blocks,1long 
count,unsigned char * puffer) 


杞 


{ 
struct block_buffer_node * node = (struct block_buffer_node 
*)kmalloc(sizeof (struct block_ buffer_node),0); 
list_init(&node->list); 


Switch (cmd) 
{ 
Case ATA_READ_CMD : 
node->end_handler = read_ handler; 
node->cmd = ATA_READ_CMD; 
break; 


case ATA_WRITE_CMD: 
node->end_handler = write handler; 
node->cmd = ATA_ WRITE_CMD; 
break; 


defaulTtsy/yy 
node->end_ handler = other_ handler; 
node->cmd = cmd; 
break; 


} 
node->LBA = blocks; 
node->count = count; 


node->buffer = buffer; 


return node; 
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函数 make_request 会 根据 命令 的 特点 为 其 指派 不 同 的 回调 处 理 函 数 。 当 操作 请 求 项 赋值 结束 ， 
便 将 其 返回 给 调用 者 。 
紧 接 着 ， 郴 数 IDE_transfer 会 相继 调用 submit 函 数 和 wait_for _finish 图 数 。 其 中 的 submit 
函数 负责 将 操作 请 求 项 加 入 到 硬盘 操作 请 求 队列 中 ， 如 果 硬 盘 目前 处 于 空闲 状态 ， 则 立即 向 硬盘 控制 
区 发 送 命 令 。 随 着 submit 函数 执行 结束 ， 处 理 器 将 通过 wait_for_finish 函 数 进入 忙 等 待 阶段 ， 直 
至 全 局 变量 disk_flags 被 中 断 处理 程 序 赋值 为 0， 完 整 的 程序 实现 如 代码 清单 11-34。 


代码 清单 11-34 ”第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\disk.c 


void submit (struct block_ buffer node * node) 


{ 


add_request (node); 


if(disk_reaquest.in using == NULL) 
cmgd_out () ; 


} 


void wait_for_ finish() 
{ 
Qisk flags = 1; 
while(disk_flags) 
nop (); 
} 


在 submit 孙 数 中 ， 结 构 体 变量 qisk_request 的 成 员 in_using 保 存 着 硬盘 驱动 程序 正在 处 理 的 
操作 请 求 项 ， 如 果 其 值 为 NULL， 则 说 明了 驱动 程序 正 处 于 空闲 状态 ,那么 就 执行 cmd_out 孙 数 向 硬盘 控 
制 器 发 送 操作 命令 。 这 里 的 wait_for_finish 消 数 虽 实现 简单 ， 但 目前 已 经 足够 用 了 ， 待 到 内 核 支 
持 等 待 队 列 后 再 做 进一步 完善 。 

代码 清单 11-35 是 请 求 项 入 队 函数 adq_request 的 程序 实现 ， 调 用 此 函数 可 将 操作 请 求 项 插入 到 
硬盘 操作 请 求 队列 中 。 


代码 清单 11-35 ”第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\disk.c 


void adqd_ request (struct block_ buffer node * node) 


{ 


list_adqd to _ before(&disk request.gqueue list,é&node->list); 
disk_request.block request_count++; 


} 

经 过 以 上 几 个 函数 的 处 理 后 ， 请 求 项 已 被 搬入 到 硬盘 操作 请 求 队列 中 。 如 果 硬 盘 操 作 请 求 队列 中 
仍 有 待 处 理 的 操作 请 求 项 ， 那 么 在 硬盘 处 于 空 闪 时 ,硬盘 驱动 程序 将 从 请 求 队列 中 取出 一 个 请 求 项 ， 
并 依据 请 求 项 记录 的 信息 执行 不 同 的 代码 分 支 ， 调 用 函数 cma_out 便 可 实现 上 述 过程 。 下 面 将 
cmq_out 函数 分 为 几 个 片段 逐一 进行 讲解 ， 请 先 看 代码 清单 11-36。 


代码 清单 11-36 ”第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\disk.c 


long cmaq_out () 


{ 


struct block_ buffer _ node * node = disk_ request.in using = container_ of (list next 
(&disk_ request.queue_ list),struct block buffer node,l1ist); 
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list_del(&disk request.in using->list); 
disk_request.block request_count--; 


while(io_in8(PORT_DISK0_STATUS_CMD) & DISK_STATUS_BUSY) 
nop(); 


switch (node->cmd) 
{ 
case ATA_WRITE_CMD: 


io_out8 (PORT_DISKO_DEVICE, 0x40); 


io_out8 (PORT_DISKO_ERR_FEATURE,0); 

io_out8 (PORT_DISKO_SECTOR_CNT, (node->count >> 8) & 0xff); 
io_out8 (PORT_DISKO_SECTOR_ LOW , (node->LBA >> 24) & 0xff); 
io_out8 (PORT_ DISKO_SECTOR MID , (node->LBA >> 32) & 0xff); 
io_out8 (PORT_ DISKO_SECTOR_HIGH, (node->LBA >> 40) & 0xff); 
io_out8 (PORT_ DISKO_ERR_FEATURE, 0); 

io_out8 (PORT_DISKO_SECTOR_CNT,node->count & 0xff); 


io_out8 (PORT_DISKO_SECTOR_ MID, (node->LBA >> 8) & 0xff); 
io_out8 (PORT_ DISKO_SECTOR_HIGH, (node->LBA >> 16) & 0xff); 


( 
( 
io_out8 (PORT_DISK0_SECTOR_LOW,node->LBA & 0xff); 
( 
( 


whilel(!(io_in8 (PORT_ DISKO_STATUS_CMD) & DISK_STATUS_READY) ) 
nop (); 
io_out8 (PORT_DISKO_STATUS_CMD, node->cmd); 


whilel(!(io_in8 (PORT_ DISKO_STATUS_CMD) & DISK_STATUS_REQ)) 
nop (); 

port_outsw (PORT_DISKO_DATA,node->buffer,256); 

break; 


这 有 段 程序 先 从 硬盘 操作 请 求 队列 中 取出 一 个 操作 请 求 项 ， 此 请 求 项 将 作为 硬盘 驱动 程序 正在 处 理 
的 操作 请 求 项 保存 在 in_using 成 员 变量 中 ， 然 后 等 待 硬盘 进入 空闲 状态 〈 硬盘 状态 端口 的 忙 状态 位 
被 复位 )。 当 硬盘 处 于 空闲 状态 时 ， 驱 动 程序 将 依据 请 求 项 记录 的 信息 〈 操作 命令 ) 执行 不 同 的 代码 
分 文 ， 从 而 将 ATA 控 制 命令 及 数据 发 往 硬盘 控制 器 。 假 设 当 前 的 请 求 项 记录 着 写 扇 区 操作 请 求 ， 那 么 


驱动 程序 会 将 48 位 LBA 地 址 发 送 到 硬盘 控制 器 的 命令 端口 ， 此 处 的 鹿 区 写 人 代码 分 支 借鉴 于 写 人 
数据 测试 程序 。 

同 理 ， 将 读 取 扇 区 数据 测试 程序 与 鹿 区 写 人 代码 分 支 融 合 起 来 ， 便 可 实现 48 位 LBA 地 址 的 扇 
取代 码 分 支 ， 详 见 代码 清单 11-37。 


代码 清单 11-37 第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\disk.c 


case ATA_READ_CMD : 


io_out8 (PORT_DISK0_DEVICE, 0x40); 


io_out8 (PORT_DISKO_ERR_FEATURE, 0); 
io_out8 (PORT_DISKO_SECTOR_CNT, (node->count >> 8) & 0xff); 
io_out8 (PORT_ DISKO_SECTOR_ LOW , (node->LBA >> 24) & 0xff); 


户 区 


区 读 
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io_out8 (PORT_DISK0_SECTOR_MID , (node->LBA >> 32) & 0xff) ; 
io_out8 (PORT_DISKO_SECTOR_HIGH, (node->LBA >> 40) & Oxff); 


io_out8 (PORT_ DISKO_ERR_FEATURE,0); 

io_out8 (PORT_ DISKO_SECTOR_CNT,node->count & 0xff); 

io_out8 (PORT_ DISKO_SECTOR_ LOW,node->LBA & Oxff); 
t8(PORT_DISKO_SECTOR_MID, (node->LBA >> 8) & Oxff),; 
t8(PORT_DISKO_SECTOR_HIGH, (node->LBA >> 16) & 0xff) ; 


io_ou 
io_out 


whilel(!(io_in8 (PORT_ DISKO_STATUS_CMD) & DISK_STATUS_READY) ) 
nop (); 

io_out8 (PORT_ DISKO_STATUS_CMD, node->cmd); 

break; 


如 果 操 作 请 求 项 用 于 获取 硬盘 设备 识别 信息 , 则 执行 代码 清单 11-38 所 示 的 硬盘 设备 识别 信息 获取 
分 支 ， 此 分 支 同 样 由 相关 测试 程序 修改 而 成 。 如 果 了 驱动 程序 不 支持 操作 请 求 项 保存 的 操作 命令 ， 则 打 
印 错误 信息 ， 该 分 支 也 位 于 代码 清单 11-38 内 。 
代码 清单 11-38 ”第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\disk.c 


Case GET_IDENTIFY_DISK_CMD: 


io_out8 (PORT_DISK0_DEVICE, 0xe0); 


io_out8 (PORT_ DISKO_ERR_FEATURE,0); 

io_out8 (PORT_ DISKO_SECTOR_CNT,node->count & Oxff); 
io_out8 (PORT_ DISK0O_SECTOR_ LOW,node->LBA & Oxff); 

io_out8 (PORT_ DISKO_SECTOR_ MID, (node->LBA >> 8) & Oxff); 
io_out8 (PORT_ DISKO_SECTOR_HIGH, (node->LBA >> 16) & 0xff) ; 


while(!(io_in8 (PORT_DISK0O_STATUS_CMD) & DISK_STATUS_READY) ) 
nop(); 
io_out8 (PORT_DISKO_STATUS_CMD,node->cmd); 


default: 
color_printk (BLACK,WHITE, "ATA CMD Error\n"); 
break; 


当 cmd_out 刺 数 返回 ， 也 就 意味 着 硬盘 驱动 程序 已 将 硬盘 操作 请 求 发 送 至 硬盘 控制 项 。 当 硬盘 驱 
动 器 执行 完 操 作 请 求 ， 或 在 执行 过 程 中 出 现 错误 ， 两 者 皆 会 向 中 断 控制 器 发 送 中 断 请 求 信号 ， 从 而 使 
处 理 器 执行 硬盘 中 断 处 理 函 数 aisk_handler。 了 辑 数 disk_handqler 是 硬盘 中 断 处 理 程序 的 主 程序 ， 
在 其 执行 过 程 中 会 进一步 调用 操作 请 求 项 内 预 设 的 回调 处 理 函 数 ， 具 体 实 现 如 代码 清单 11-39。 


代码 清单 11-39 ”第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\disk.c 


void disk_handler (unsigned long nr, unsigned long parameter, struct pt_regs * regs) 


{ 


HH 


struct block_ buffer node * node = ((struct request_ queue *)parameter)->in using; 
node->end_ handler (nr,parameter); 


} 
这 里 的 回调 处 理 方 法 eng_handler 是 在 创建 操作 请 求 项 时 根据 命令 预 设 的 处 理 函 数 , 目前 共 实 现 
read_hanaqler、write_handqler 以 及 other_handqler 三 类 回调 函数 ， 它 们 分 别 对 应 着 读 取 、 写 入 
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和 硬盘 设备 识别 信息 三 个 命令 。 

代码 清单 11-40 是 肩 区 读 写 操 作 的 回调 处 理 函 数 , 这 两 个 回调 处 理 函 数 都 会 对 硬盘 状态 端口 进行 检 
测 ， 如 果 硬 盘 出 现 错 误 则 打印 出 端口 状态 值 ， 否 则 执行 相应 的 处 理 过 程 。 鉴 于 获取 硬盘 设备 识别 信息 
的 回调 处 理 过 程 与 肩 区 读 取 的 回调 处 理 过 程 相 似 ， 此 处 就 不 再 浪费 篇 幅 讲解 。 


代码 清单 11-40 ”第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\disk.c 


void read handler (unsigned long nr, unsigned long parameter) 


{ 


struct block_ buffer node * node = ((struct request_ queue *)parameter)->in using; 


if(io_in8 (PORT_DISKO_STATUS_CMD) & DISK_STATUS_ERROR) 
Color_printk (RED,BLACK, "read handler:%#010x\n",io_in8 (PORT_ DISKO_ERR_ 
FEATURE) ); 
else 
port_insw(PORT_DISKO_DATA,node->buffer,256); 


end_request () ; 


} 


void write handler (unsigned long nr, unsigned long parameter) 
if(io_in8 (PORT_ DISKO_STATUS_CMD) & DISK_STATUS_ERROR) 
Color_printk (RED,BLACK, "write_ handler:%#010x\n",io_in8 (PORT_ DISKO_ERR_ 
FEATURE) ); 


end_request () ; 


} 

由 于 鹿 区 的 写 和 人 操作 会 先 发 送 数据 ， 因 此 其 回调 处 理 函 数 仅 需 检 测 硬盘 状态 端口 值 即 可 。 而 书 区 
El i he 同时 ， 从 VO 端口 读 取 硬盘 缓存 区 中 的 数据 。 所 有 的 回调 处 理 函 
数 终 将 以 调用 enq_reaquest 函 数 来 宣告 操作 请 求 执行 结束 。 

函数 end_requ sc 的 主要 任务 是 回收 硬盘 驱动 程序 正在 处 理 的 操作 请 求 项 并 使 忙 等 待 孙 数 
wait_for_finish 返 回 。 如 果 此 时 的 硬盘 操作 请 求 队列 中 仍 有 操作 请 求 项 ， 则 调用 cmq_out 函数 继 
续 向 硬盘 控制 器 发 送 命 令 和 数据 ， 代 码 清单 11-41 是 end_request 函 数 的 程序 实现 。 


代码 清单 11-41 第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\disk.c 


void end_request () 


{ 


kfree((unsigned long *)disk_ request.in using); 
disk_request.in using = NULL; 


disk_flags = 0; 


if(disk_request.block_ request_count) 
cmaq_out (); 


} 


现在 ,硬盘 设备 ( 块 设备 ) 驱动 模型 已 基本 实现 。 在 使 用 硬盘 驱动 程序 前 ， 不 要 忘记 向 驱动 初始 
化 程序 中 加 入 硬盘 操作 请 求 队列 的 初始 化 代码 ， 并 更 改 硬 盘 中 断 处 理 函 数 的 参数 ， 更 多 程序 细节 请 参 


和 
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见 代码 清单 11-42。 
代码 清单 11-42 ”第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\disk.c 


void disk_ init() 


register_irqg(0x2e, 
&disk_int_controller, 


&entry , &disk_ handler, 
"disk0"); 


(unsigned long)&disk_ request, 


io_out8 (PORT_DISKO_ALT_STA_CTL,0); 


list_init(&disk request.queue list); 
disk_request.in using = NULL; 
disk_request.block_ request_count = 0; 


disk_flags = 0; 
} 


这 上段 程序 在 注册 硬盘 中 断 处 理 函 数 时 ， 将 硬盘 操作 请 求 队列 aisk_request 作 为 中 断 处 理 函 数 的 
参数 注册 到 中 断 处 理 单元 中 ， 并 初始 化 硬盘 操作 请 求 队列 及 相关 全 局 变量 。 


至 此 ,硬盘 驱动 程序 已 实现 ,下面 就 来 验证 它 的 执行 效果 。 这 里 依然 选用 LBA 1234,5678h 作 为 测 
试 扇 区 ， 测 试 程序 会 先 向 目标 扇 区 写 人 测试 数据 ， 再 读 取 目 标 扇 区 中 的 数据 以 验证 硬盘 驱动 程序 的 执 
行 效果 ， 详 细 程 序 实现 请 参见 代码 清单 11-43 。 
代码 清单 11-43 ”第 11 章 \ 程 序 \ 程 序 11-6\ 物 理 平台 \kernel\main.c 


void Start_Kernel (voigqd) 


{ 


char buf[512]; 
int 1» 


color_printk (RED,BLAC 
diske TILE 


color_printk (PURPLE,B 
memset (buf, 0x44,512);，; 
IDE_device_operation. 


color_printk (PURPLE,B 


color_printk (PURPLE,B 
memset (buf, 0x00,512);，; 
IDE_device_ operation. 


GFN EO 
Color_printk (BLAC 
color_printk (PURPLE,B 


Rolek TNL MNT) 


LACK, "disk write:\n"); 

transfer (ATA_ WRITE_ CMD, 0x12345678,1, (unsigned char *)buf); 
LACK, "disk write end\n"); 

LACK, "disk read:\n"); 

transfer (ATA_READ_CMD, 0x12345678,1, (unsigned char *)buf); 
1+ 十 ) 


K,WHITE, "%$02x",buf [i]); 
LACK, "\ndisk read end\n"); 
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这 上段 程序 借助 硬盘 操作 抽象 接口 transfer 向 硬盘 发 送 操 作 命 令 ATA_WRITE_CMD 和 ATA_READ_CMD。 
当 测 试 程序 执行 结束 后 ，LBA 1234,5678h 扇 区 中 的 数据 已 全 部 变 为 0x44， 其 运行 效果 请 参见 图 11-16。 


00000000000000403 
0000000010f4 ,bi 
00000000010 
000000000000004 
0001fe00000， 


add )00000020200000， nd at x0000000040000000， length:0x000000001fe00000， 
Er 
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ffer_initO i 


图 11-16 ”硬盘 驱动 程序 运行 效果 图 


如 果 读 者 希望 在 硬盘 驱动 程序 中 加 入 MO 调度 器 来 优化 磁头 寻 道 路 径 ， 可 考虑 把 MO 调度 器 插入 到 
add_request 清 数 或 supmit 函数 (这些 位 置 仅 供 参 考 ) 中 。 由 于 内 核 的 基础 功能 尚未 完全 实现 ， 本 
章 的 硬盘 驱动 程序 也 只 是 一 个 基础 框架 ， 它 将 会 伴随 着 内 核 的 逐步 实现 而 进行 升级 和 完善 。 

今后 的 系统 程序 将 在 不 断 地 补充 和 完善 中 逐步 趋 于 成 熟 ， 这 个 过 程 将 会 对 过 往 代码 进行 修改 和 调 
整 ， 读 者 可 借助 代码 比较 工具 进行 研读 学 习 。 


进程 党 理 


经 过 设备 驱动 程序 一 章 的 洗礼 后 ， 本 章 将 对 初级 篇 的 进程 管理 单元 ( 或 称 进程 管理 模块 ) 进行 补 
充 、 升 级 与 完善 ， 这 一 过 程 将 涉及 多 核 处 理 器 、 进 程 调度 、 临 界 区 竞争 、 进 程 间 通 信 等 重要 内 容 和 相 
关 知 识 点 。 相 信 经 过 此 次 升级 后 的 进程 管理 单元 会 更 加 精彩 。 


12.1 进程 管理 单元 功能 概述 


进程 这 个 概念 的 引入 也 许 要 追溯 到 批 处 理 操作 系统 或 单 用 户 操作 系统 时 代 ， 甚 至 更 早 以 前 。 随 着 

处 理 器 运算 速度 的 不 断 提 升 ， 当 处 理 器 在 批 处 理 操作 系统 中 执行 一 个 IO 消耗 型 任务 ( 进程 ) 时 ， 这 类 

任务 将 使 处 理 器 长 期 处 于 忙 等 待 状态 ， 如 果 处 理 圳 能够 在 忙 等 待 期 间 执行 其 他 任务 的 话 ， 这 将 会 大 大 

缩短 总 体 任 务 的 执行 时 间 。 

分 时 操作 系统 可 以 有 效 缓解 这 种 性 能 浪费 问题 ， 并 且 强 化 了 进程 管理 单元 这 个 概念 。 分 时 操作 系 

统 在 批 处 理 操作 系统 的 基础 上 ,将 处 理 器 执行 任务 的 时 间 轴 分 割 为 若干 个 很 短 的 时 间 片 段 ， 等 待 执 行 

的 任务 将 交 蔡 使 用 这 些 时 间 片 段 。 从 宏观 上 看 ,这些 任务 仿佛 在 时 间 轴 内 同时 执行 , 但 具体 到 某 个 时 

间 点 却 又 是 在 交替 执行 ， 即 并 发 执行 ， 当 处理 器 核心 数量 超过 等 待 执 行 的 任务 数量 时 ， 这 些 任务 便 可 

各 自 独 占 一 个 处 理 咒 ， 此 时 这 些 任务 是 在 并 行 执行 。 

从 分 时 操作 系统 时 代 开 始 ， 进 程 管理 单元 在 逐渐 走向 成 熟 的 同时 ， 也 变 得 尤为 重要 。 它 不 但 管理 

着 每 个 进程 或 线程 的 创建 、 销 毁 及 资源 分 配 情况 ， 而 且 还 仲裁 着 进程 或 线程 的 执行 与 挂 起 。 图 12-1 是 

进程 管理 单元 的 功能 示意 图 ， 它 描述 了 进程 队列 内 的 每 个 进程 与 处 理 器 、 内 存 等 硬件 资源 在 时 间 轴 上 

的 执行 关系 。 

图 12-1 将 进程 管理 单元 的 功能 分 为 左 中 右 三 部 分 ， 它们 分 别 描述 了 运行 状态 的 进程 、 进 程 的 状态 

切换 过 程 和 静止 状态 的 进程 。 

口 左 侧 是 进程 的 运行 状态 部 分 ,其 描绘 了 进程 在 运行 时 的 硬件 设备 资源 使 用 情况 ,其 中 不 乏 包 含 
有 记录 进程 当前 运行 状态 的 RIP 与 RSP 寄 存 器 以 及 任务 状态 段 、 各 进程 的 私有 虚拟 内 存 空 间 和 
物理 内 存 空间 等 资源 。 

口 右 侧 是 进程 的 静止 状态 部 分 ， 当 进程 从 运行 状态 进入 挂 起 状态 时 ， 进 程 会 将 所 有 资源 的 使 用 情 
况 都 保存 起 来 。 其 实 ， 进 程 的 创建 过 程 也 始 于 此 处 ， 即 先 创建 静止 状态 的 进程 ， 当 时 机 成 熟 时 
调度 运行 。 
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口 中 间 部 分 表示 基于 时 间 片 的 进程 调度 器 Schedule， 进 程 调度 器 将 根据 右 侧 各 个 进程 的 执行 因素 
有 选择 地 把 进程 或 线程 调度 到 左 侧 的 执行 环境 里 运行 。 每 经 过 一 个 时 间 片 ,进程 调度 带 就 会 重 
新 对 运行 中 的 进程 做 一 次 调度 评 佑 ， 以 决定 接 下 来 应 该 执行 和 挂 起 的 进程 或 线程 。 


| 时间 利 | 
进程/ 线程 执行 环境 _CPU0 里 eg 
Rr Ts 加 量 
{oe a ee iti 具 他 资源 | 
了 各 序 | 慷 区 
ae 进程 2 [二 他 资源 
内 在 进程/ 线程 执行 环境 CPU 1 人 广 2 
匠 理 了 | 虎 所 内 一 和 
物 妥 | 惟 下 | 成 报 内 | Ri T RS 进 各 2 
内 作 单元 在 空间 [一 比 他 资 溪 
空间 WO YM 十 edey = 
- 进程 3 
进程 1 其 他 资源 
应 进程 入 
际 程序 得 序 酝 序 得 骨 栈 | 栈 | 楼 | 栈 | 堆 | 其 他 资源 


国 线程 执行 环境 
[进程 执行 环境 
图 12-1 进程 管理 单元 功能 示意 图 


分 时 操作 系统 的 时 间 片 是 通过 高 精度 定时 带 实 现 的 ， 为 了 保证 时 间 片 长 度 相等 ， 则 必须 每 次 向 定 
时 器 写 人 固定 计数 值 (时间 值 )。 这 种 基于 时 间 片 的 分 时 操作 系统 在 处 理 多 任务 时 有 着 显著 的 优势 ， 
绝 大 部 分 现代 通用 操作 系统 均 是 在 此 基础 上 演变 而 来 的 ， 主 要 是 增强 了 分 时 操作 系统 的 实时 性 。 

伴随 着 进程 或 线程 间 的 交互 协作 越 来 越 紧 密 ， 当 多 核 处 理 器 面世 后 ， 大 多 数 操作 系统 都 会 存在 
界 区 的 资源 竞争 、 进 程 或 线程 间 的 通信 等 问题 ， 这 也 是 决定 进程 、 线 程 执行 与 否 的 重要 因素 之 一 。 


12.2 多核 处 理 器 


虽然 我 们 已 经 进入 多 核 处 理 器 时 代 许 多 年 ， 可 大 多 数 人 对 多 核 处 理 器 的 理解 仍然 止步 于 基础 概念 [本 
阶段 ， 其 内 部 结构 与 工作 原理 依然 鲜 为 人 知 。 

对 于 多 核 处 理 器 而 言 ， 它 并 非 一 时 的 产物 ， 而 是 经 过 许多 代 处 理 器 不 断 改 进 后 才 成 为 今天 的 模 
样 。 下 面 就 请 跟随 作者 的 脚步 一 同 走 进 多 核 处 理 器 的 世界 。 


12.2.1 超 线程 技术 与 多 核 技术 概述 


纵 观 Intel 多 核 处 理 需 的 历史 演变 与 发 展 ,， 超 线程 技术 ( Hyper-Threading ) 与 多 核 技 术 ( Multi-Core ) 
是 两 个 最 为 重要 的 时 间 点 。 图 12-2 描 绘 了 一 个 典型 的 基于 超 线程 技术 和 多 核 技 术 的 多 核 处 理 需 结 构 ， 
现 以 此 图 为 例 来 对 这 两 种 技术 进行 讲解 。 


豆 
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支持 超 线程 技术 的 Intel 处 理 器 


a 


支持 超 线程 技术 的 Intel 处 理 器 


涩 辑 处 理 单元 0 | 逻辑 处 理 单元 1 


逻辑 处 理 单元 0 


有 逻辑 处 理 单元 1 


处 理 器 核心 处 理 器 核心 
Local APIC Local APIC Local APIC Local APIC 
处 理 器 总 线 处 理 器 总 线 
| IPI | 中 断 消 息 | IPI | 中 断 消息 
< T > 
y 
桥 控制 器 
pcl 
< T > 
LO APIC 十 一 外 部 中 断 
芯片 组 
图 12-2 ”基于 超 线程 技术 和 多 核 技术 的 多 核 处 理 器 结构 图 


岁 12-2 是 一 个 双核 四 线程 的 Intel 处 到 
Core ) 集成 到 一 个 处 理 需 内 。 而 每 个 处 到 


Processor ) 集成 在 其 中 。 以 下 内 容 是 这 些 技术 的 详细 解释 。 


@ 超 线程 技术 


器 , 它 使 用 多 核 技术 将 两 个 完全 独立 的 处 理 器 核心 (Processor 
器 核心 又 借助 超 线程 技术 把 两 个 逻辑 处 理 单元 ( Logical 


超 线 程 技术 可 将 两 个 逻辑 处 理 单元 融入 到 一 个 处 理 絮 核心 内 ,这 两 个 逻辑 处 理 单元 的 大 部 分 寄存 


器 和 功能 是 互相 独立 的 ， 
总 线 接口 。 也 就 是 说 ， 虽 


个 逻辑 处 理 单元 内 的 任务 只 能 并 发 执行 。 表 12-1 罗 列 出 了 每 个 逻辑 处 到 


表 12-1 逻辑 处 理 单元 的 独 享 硬 件 资源 表 


日 它们 却 共享 着 处 理 融 核心 的 执行 引 警 ( Execution Engine )、 处 理 需 缓存 和 
汰 处 理 器 核心 有 两 个 逻辑 处 理 单元 ， 但 执行 引擎 却 只 有 一 个 ， 从 而 导致 这 两 
单元 独 享 的 硬件 资源 。 


硬件 资源 寄存 器 名 称 
通用 寄存 带 RAX、 RBX、 RCX、 RDX、 RSI、 RDI RSP、 RBP、 R8~R15 
段 寄 存 器 CS、DS、SS、ES、FS GS 
x87 FPU 寄 存 融 组 STO~ ST7 
MMX 寄存 器 组 MM0 ~ MM7 
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( 续 ) 
硬件 资源 寄存 器 名 称 

XMM 寄 存 器 组 XMMO ~ XMMI5 
YMM 寄 存 器 组 YMM0 ~ YMMI15 
控制 寄存 器 组 CR0~ CR15 ( 部 分 寄存 器 无 效 ) 
系统 表 寄 存 器 GDTR 、LDTR 、IDTR 、TR 
调试 寄存 器 组 DR0~ DR15 ( 部 分 寄存 器 无 效 ) 

EIRFLAGS 和 EI|RIP 寄 存 器 

Local APIC 寄 存 器 组 

大 部 分 MSR 寄 存 器 


对 于 一 小 部 分 MSR 寄 存 器 和 MTRR (Memory TypeRange Register ) 寄存 右 组 ， 它 们 将 被 处理 器 核 
心 内 的 两 个 逻辑 处 理 单元 共享 使 用 。 剩 余 寄 存 器 可 能 会 被 逻辑 处 理 单元 独 享 或 共享 使 用 ， 这 取决 于 处 
理 器 的 具体 实现 。 

超 线 程 技术 可 在 多 处 细节 上 提升 处 理 器 的 执行 效率 ， 而 不 是 一 味 地 增加 核心 数量 来 提高 处 理 速 
度 。 例 如 ， 当 一 个 逻辑 处 理 单元 发 生 缺 页 时 , 执行 引擎 将 等 待 新 页 面 从 物理 内 存 换 入 到 处 理 器 缓存 中 ， 
整个 换 入 过 程 非常 消耗 时 间 。 此 时 ， 执 行 引 警 就 会 运行 另外 一 个 逻辑 处 理 单元 的 任务 ， 以 减少 执行 引 
擎 的 等 待 时 间 。 

@ 多核 技术 

尽管 超 线程 技术 能 够 有 效 降低 执行 引擎 的 占 空 比 ， 可 是 单 核 处 理 器 的 并 发 执行 速度 终究 无 法 超越 
多 核 处 理 器 的 并 行 执行 速度 ， 最终 还 是 要 依靠 多 核 技 术 以 增加 处 理 器 数量 的 方式 来 提高 多 任务 的 处 理 
速度 。 

@ 多 线程 技术 

为 了 使 处 理 器 的 多 任务 处 理 速度 和 效率 更 高 ， 多 线程 技术 ( Multi-Threading ) 整合 了 超 线程 技术 
和 多 核 技 术 ， 实 现 硬件 层面 的 多 任务 并 行 处 理 ， 它 比 软 件 层 面 的 多 任务 处 理 更 加 高 效 。 

在 处 理 器 上 电 或 重启 后 ， 硬 件 系统 将 动态 选择 一 个 逻辑 处 理 单元 作为 BSP ( BootStrap Processor， 
引导 处 理 器 )， 其 他 逻辑 处 理 单元 则 作为 AP ( Application Processor， 应 用 人 处理 器 ) 使 用 ， 这 两 类 处 理 
髓 的 功能 如 下 。 

口 BSP。BSP 逻 辑 处 理 单元 是 硬件 平台 上 电 后 启动 的 第 一 个 处 理 器 ， 它 负责 执行 引导 程序 来 配置 

APIC 执 行 环 境 、 配 置 系统 运行 环境 、 初 始 化 并 启动 AP。 遵 照 Intel 多 核 处 理 器 的 初始 化 协议 ， 
当选 定 BSP 后 ， 只 有 BSP 的 IA32 APIC_ BASE.BSP[8] 标 志 位 会 被 置 位 。 

口 AP。 在 处 理 器 上 电 或 重启 后 ，AP 逻 辑 处 理 单元 将 完成 最 小 集 的 自我 配置 工作 ， 随 后 等 待 BSP 

处 理 右 发 送 Start-up IPI 消 息 。 当 AP 处 理 器 收 到 Startrup IPI 消 息 后 ， 将 从 Start-up IPI 消 息 提供 的 
引导 程序 起 始 地 址 开始 执行 。 

不 管 是 BSP 逻辑 处 理 单元 还 是 AP 逻辑 处 理 单元 ， 它 们 在 处 理 器 上 电 或 重启 时 ， 都 指派 了 唯一 的 
APIC ID 值 。APIC ID 值 根据 APIC 控 制 器 版 本 的 不 同 ， 可 以 分 为 8 位 (通过 cPUID.01h:EBX[31:24] 
获得 ) 和 32 位 ( 在 x2APIC 模 式 下 ， 通 过 cPUID .0Bh:EDX 获 得 )。 而 且 ，APIC ID 并 不 是 单一 的 ID 值 ， 
它 可 拓扑 成 3~5 个 层级 ， 图 12-3 描 述 了 一 个 拥有 4 个 拓扑 层级 APIC ID 值 。 


Ha 


31 0 
答 1D 包 ID | 核心 ID | 多 同步 线程 ID 


图 12-3 APIC ID 拓扑 结构 图 


图 12-3 将 4 层 拓扑 结构 分 别 命名 为 处 理 需 簇 ID 、 处 理 需 包 ID 、 处 理 需 核心 ID 以 及 同步 多 线程 ID ， 
表 12-2 是 各 层 拓扑 结构 的 含义 说 明 。 


表 12-2 APIC ID 拓扑 结构 的 含义 说 明 表 


名 称 英文 全 称 功能 描述 
簇 ID Cluster ID 在 一 些 文 持 多 线程 技术 的 多 处 理 器 运行 环境 中 ,处理 器 可 能 由 多 个 处 理 器 集群 组 成 ， 
每 个 集群 再 由 多 个 处 理 器 系统 组 成 
包 ID Package ID ”一 个 处 理 器 包 代 表 一 个 多 处 理 器 系统 ， 它 由 两 个 甚至 多 个 处 理 器 核心 组 成 
核心 ID Core ID 一 个 处 理 需 核心 由 一 个 或 多 个 逻辑 处 理 单元 组 成 ， 这 些 逻 辑 处 理 单元 共享 执行 引 警 
同步 多 线程 ID ”SMT ID 一 个 同步 多 线程 就 是 一 个 逻辑 处 理 单元 


APIC ID 各 层 拓扑 结构 的 位 域 宽度 是 不 固定 值 , 通过 cPUID.0Bh 可 枚 举 出 APIC ID 拓扑 结构 内 的 大 
部 分 层级 位 宽 ， 以 下 是 枚 举 过 程 的 伪 代 码 : 


Byte Level_type 


1, tmp_value = 0; 


Shiont Shift Bit Os 

While (Level_type) 

{ 
EAX = 0Bh; 
ECX = tmp_value; 
CPUID 
Level_type = ECX[15:8]; 
shift_bit = EAX[4:0]; 
tmp_value ++; 


: = ECX[7:0]; 

这 段 伪 代 码 通过 向 EAX 寄存 器 写 人 主 功能 号 0Bh， 再 向 BCX[7:0] 寄 存 器 写 人 子 功 能 号 0， 来 枚 举 
APIC ZD 的 拓扑 层级 。 每 次 枚 举 都 需要 将 ECX 寄 存 器 的 子 功 能 号 加 1， 直 至 ECX[15:8] 寄 存 器 返回 0 为 
止 。 每 次 枚 举 执行 后 ，ECX[15:8] 寄 存 器 都 会 返回 层级 类 型 (0: 无 效 ; 1: SMT; 2: Core; 3~255: 
保留 )，EAX[4:0] 寄 存 器 返回 层级 位 宽 ( 包含 上 一 级 位 宽 )，EBX[15:0] 寄 存 器 返回 当前 层级 下 的 好 辑 
处 理 单元 数量 。 如 果 ECX[15:8] 寄 存 器 返回 0， 说 明 整个 枚 举 过 程 执行 结束 ， 此 时 ECX[7:0] 寄 存 器 返回 
最 大 拓扑 层级 数 ，EDX 寄 存 器 返回 当前 逻辑 处 理 单元 的 x2APIC ID 值 。 

值得 注意 的 是 cPUID. 0Bh 最 多 只 能 枚 举 出 SMT 和 Core 两 个 层级 的 位 宽 ，Package 层 级 将 使 用 APIC 
ID 的 剩余 位 宽 ， 而 Cluster 层 级 Intel 尚 未 提供 查询 方法 。 

将 上 述 伪 代 码 转化 为 执行 程序 便 可 枚 举 出 SMT 和 Core 层 级 的 位 宽 进而 间接 计算 出 Package 层 级 的 
位 宽 ， 代 码 清单 12-1 是 完整 的 枚 举 程序 实现 。 


代码 清单 12-1 ”第 12 章 \ 程 序 \ 程 序 12-1\ 物 理 平 台 \kernel\SMP.c 


void SMP_ init() 
{ 


于 了 七 主子 
unsigned int a,b,c,d; 


//get local APIC ID 
for(i = 0;;i++) 
| 
get_cpuid(0xb,iv&avgb,&cv&d) ; 
工业 (le, SS :8K "0KEE£) .==...0") 
break; 
Color_printk (WHITE,BLACK,"local APIC ID Package_../Core 2/SMT_1,type (%x) 
Width:%#010x,num of logical processor ($x)\n",c >> 8 & Oxff,a & Oxlf,b & Oxff); 


Color_printk (WHITE,BLACK, "x2APIC ID level:%#010x\tx2APIC ID the current logical 
processor:%#010x\n",c & Oxff,d); 
} 


这 段 程序 源 于 新 创建 的 SMP.c 文 件 ， 在 编译 系统 内 核 前 必须 向 Makefile 文 件 追 加 相关 编译 链接 命 
图 12-4 是 sMP_init 函 数 在 物理 平台 上 的 运行 效果 。 


图 12-4 APIC ID 拓 扑 结 构 枚 举 效 果 图 


从 图 12-4 显 示 的 枚 举 结果 中 可 以 分 析出 ，i7-2620 MB 处 理 器 至 少 拥 有 SMT 和 Core 两 个 层级 ， 其 中 
SMT 层 级 的 位 宽 为 1，Core 层 级 的 位 宽 为 3 ( 4-1 ),。 对 于 一 个 双核 四 线程 的 处 理 器 来 说 ， 它 由 3 个 层级 的 
拓扑 结构 组 成 ，Package 层 级 的 位 宽 为 32 - 3 ( Core 层 级 位 宽 ) -1 (SMT 层 级 位 宽 ) =28。 该 执行 程序 
当前 运行 于 BSP 逻辑 处 理 单元 中 ， 它 的 x2APIC ID 值 为 0x00000000。 值 得 注意 的 是 ， 在 2.6.8 版 本 的 
Bochs 虚 拟 机 中 ，cPUID.0Bh 的 枚 举 结果 可 能 有 误 。 


I 
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12.2.2 ”多 核 处 理 器 间 的 IP1 通信 机 制 介绍 


多 核 处 理 器 间 的 IPI 通 信 机 
通信 。 早 在 第 10 章 就 已 经 对 多 核 处 理 器 间 的 IPI 通 信 机 制 略 有 人 介绍。 其实， 它 本 应 属于 
站 特 放 在 进程 管理 单元 中 讲解 更 为 合适 ， 因 此 才 将 其 从 高 级 中 断 


元 一 章 的 内 容 , 但 鉴于 其 功能 独 


元 一 章 中 分 离 出 来 。 


多 核 处 理 器 为 IPI 通 信 机 制 提供 了 一 系列 寄存 器 ， 以 实现 不 同 种 中 断 投递 方式 的 处 理 需 间 
个 中 断 投递 过 程 主要 围绕 ICR ( Interrupt Command Register ， 
寄存 器 的 标志 位 配置 情况 ， 有 选择 地 使 用 其 他 附 
通信 过 程 所 涉及 的 寄存 器 予以 介绍 。 


@ ICR 


ICR 是 LocalAPIC 寄 存 器 组 内 的 一 个 64 位 寄存 器 ， 


斯 命令 寄存 器 ) 


属 寄 存 髓 将 IPI 消 


i 


证 是 以 Local APIC 和 IO APIC 为 载体 ， 借 助 中 断 投递 方式 与 其 他 处 理 器 
高 级 中 断 处 理 单 
处 理 单 


vs 


豆 


息 发 送 至 目标 处 理 带 。 下 面 ; 


过 | 上 百 。 征 


展开 , 处 理 需 会 根据 ICR 


秆 对 IPI 


它 用 于 向 目标 处 理 右 发 送 IPI 中 断 消息 。 不 同 


LocalAPIC 运 行 模式 下 的 ICR 的 寄存 器 位 功能 略 有 不 同 ， 图 12-5 汇 总 了 ICR 寄 存 需 在 各 运行 模式 下 的 寄 


存 器 位 功能 。 
63 32 
投递 目标 x2APIC 
63 56 55 32 
投递 目标 APIC & xAPIC 
31 2019 1817 1615 14 13 12 1110 87 0 
中 断 向 量 号 APIC & xAPIC & x2APIC 
攻 投递 模式 
000 Fixed 
投递 目标 速记 值 010 SMI 
00: 不 使 用 速记 值 100 NMI 
01: 只 向 自身 投递 消息 101 INIT 
10: 向 所 有 处 理 器 发 送 消息 (包括 自身 ) 110 Start Up 
11: 向 所 有 处 理 器 发 送 消 息 (不 包括 自身 ) gd 
目标 模式 
0: 物理 模式 
国 国保 贸 1: 罗 辑 模式 
信守 驱动 号 平 
0= 龙 效 
APIC & xAPIC 物理 地 址 : FEEO 0300h(0-31) 1= 人 有 效 
FEE0 0310h(32-63) 健 发 模 氏 
x2APIC MSR 邮 十: 830h(63-0) 人 机 
初始 什 : oh 0: 边 稿 触发 
1: 电 料 触发 


ICR 寄 存 器 各 位 的 功能 与 LVT 以 及 IO 中 断定 向 投递 寄存 器 (RTE ) 的 位 功能 


此 处 就 不 再 读 


图 12-5 ICR 寄 存 器 的 位 功能 说 明 


图 (APIC & xAPIC & x2APIC ) 


F 解 了 ， 这 里 重点 说 明 一 下 不 同 的 寄存 器 位 功能 ， 请 看 表 12-3 对 它们 的 介绍 。 


分 相似 ， 


hdl 
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表 12-3 1ICR 寡 存 器 的 位 功能 说 明 表 
寄存 器 位 域 位 置 功能 描述 
言 号 驱动 电 平 14 表示 投递 中 断 的 信号 驱动 电 平 。 对 于 De-assert 级 别 的 INIT 投 递 模式 ， 该 位 必须 为 0， 而 划 
他 投递 模式 ， 则 必须 为 1 
投递 目标 速记 值 ” 18~19 表示 投递 目标 的 速记 值 


在 ICR 中 引入 了 Start Up 投递 模式 ，BSP 逃 辑 处 理 单元 通过 此 模式 可 向 目标 处 理 器 发 送 引 导 程 序 的 
起 始 地 址 。 当 投递 模式 为 Start Up 时 ，Interrupt Vector 位 域 负 责 向 目标 处 理 器 提供 引导 程序 的 起 始 地 址 ， 
起 始 地 址 的 格式 为 000VV000h( VV 是 Interrupt Vector 位 域 值 ) 如 果 Start Up 消息 投递 失败 ，Local APIC 
不 会 自动 重 发 ， 必 须 手 动 重 发 Start Up 消息 ， 出 于 保险 起 见 ，Intel 建 议 向 目标 处 理 器 投递 两 次 Start Up 
消息 。 

投递 目标 速记 值 可 代 蔡 投递 目标 区 域 宏观 投递 中 断 消息 ， 表 12-4 描 述 了 ICR 寄 存 器 可 用 的 速记 
值 。 只 有 当 投递 目标 速记 值 为 00h 时 ，ICR 寄 存 器 才 会 使 用 投递 目标 区 域 检索 目标 处 理 器 。 


表 12-4 ”投递 目标 速记 值 介绍 表 


速记 值 功能 描述 速记 值 功能 描述 
00 不 使 用 速记 值 10 句 所 有 处 理 器 发 送 消息 (包括 自 身 ) 
01 只 向 自身 发 送 消息 11 句 所 有 处 理 器 发 送 消 息 〈 不 包括 自身 ) 


特别 注意 ， 在 APIC 和 xAPIC 模 式 下 ，ICR 由 两 个 32 位 的 寄存 器 组 成 。 如 果 向 ICR 寄 存 器 的 低 32 位 
写 人 数据 ， 那 么 处 理 器 会 立即 发 送 IPI 消 息 。 因 此 ， 我 们 必须 先 向 ICR 寄 存 器 的 高 32 位 写 人 数据 ， 再 向 
低 32 位 写 人 数据 。 

@ LDR 与 DFR 

当 ICR 使 用 逻辑 目标 投递 模式 时 ，Destination Field 位 域 将 不 再 代表 APIC ID 值 ， 而 是 代表 一 个 8 位 
的 MDA (Message Destination Address, 消息 目标 地 址 )。 当 Local APIC 收 到 一 个 逻辑 目标 投递 模式 的 IPI 
消息 时 ，Local APIC 会 根据 LDR (Logical Destination Register， 逻 辑 目标 寄存 器 ) 和 DFR ( Destination 
Format Register， 目 标 格 式 寄存 器 ) 的 设置 对 MDA 值 进行 仲裁 ， 以 确定 是 否 处 理 这 条 IPI 消 息 。 

此 处 的 LDR 保 存 着 逻辑 APIC ID 值 ， 图 12-6 汇 总 了 LDR 寄 存 器 在 各 运行 模式 下 的 寄存 器 位 功能 ， 
请 读者 不 要 混淆 逻辑 APIC ID 值 与 LocalAPIC ID 值 。 

31 0 


逻辑 x2APIC ID | 


31 24 23 0 


逻辑 APIC ID 保留 


APIC & xAPIC 物理 地 址 ; OFEE0 00DOh 
x2APIC MSR 地 址 : 80Dh 
初始 值 : 0000 0000h 


图 12-6 LDR 寄存 右 的 位 功能 说 明 图 ( APIC & xAPIC & x2APIC ) 
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LDR 无 法 在 逻辑 目标 投递 过 程 中 单独 使 用 ， 它 必须 与 DFR 联 合 使 用 。DFR 人 负责 设置 逻辑 APIC ID 


与 MDA 的 匹配 模式 ， 在 APIC 和 xAPIC 模 式 下 ， 逻 辑 目标 格式 共有 平坦 模式 〈Flat Model ) 或 集群 模式 
( Cluster Model ) 两 种 。 而 x2APIC 模 式 已 不 再 支持 平坦 模式 ， 仅 剩 集群 模式 一 种 ， 以 至 于 x2APIC 模 式 
废除 了 DFR 寄 存 器 。 图 12-7 描 述 了 DFR 各 位 的 功能 。 


31 28 27 


模式 保留 (全 为 1) 


平坦 模式 : 1111 
集群 模式 : 0000 


物理 地 址 ;， FEE0 00E0h 
初始 值 : FFFF FFFFh 


图 12-7 ”DFR 寄存 器 的 位 功能 说 明 图 (APIC & xAPIC ) 


平坦 模式 与 集群 模式 在 逻辑 目标 的 检索 方式 上 存在 很 大 区 别 ， 表 12-5 介 绍 了 这 两 种 逻辑 目标 格式 
的 特点 。 


表 12-5 ”逻辑 目标 格式 介绍 表 
模式 名 功能 描述 
平坦 模式 平坦 模式 用 逻辑 APIC ID 的 每 位 代表 一 个 Local APIC。 在 发 送 IPI 消 息 时 ， 可 置 位 MDA 中 的 一 位 或 几 位 ， 
凡是 逻辑 APIC ID 与 MDA 执 行 逻辑 与 操作 后 不 为 0 的 处 理 器 皆 为 目标 处 理 器 ， 只 有 这 些 目 标 处 理 器 才 会 
接收 并 处 理 IPI 消 息 


集群 模式 集群 模式 又 可 细 分 为 平坦 集群 (Flat Cluster ) 和 分 层 集群 ( Hierarchical Cluster ) 。 平 坦 集群 与 平坦 模式 
相似 ， 而 分 层 集群 则 需要 借助 特殊 管理 设备 才能 实现 


关于 平坦 模式 和 集群 模式 的 更 多 介绍 ， 还 请 感 兴趣 的 读者 自行 阅读 Intel 官 方 白皮书 。 
@ SELF-IPI 寄 存 器 


在 x2APIC 模 式 下 ，LocalAPIC 引 入 了 一 个 名 为 SELF-IPI 的 寄存 器 ， 它 旨 在 优化 向 自身 投递 IPI 消 息 的 
路 径 ， 以 换取 更 高 的 自身 通信 速度 ， 图 12-8 是 SELF-IPI 寄 存 器 各 位 的 功能 说 明 。 
MSR 地 址 : 083Fh 
31 


T 


87 0 


保留 中 断 向 量 号 


图 12-8 SELF-IPI 寄 存 器 的 位 功能 说 明 图 


软件 只 需 向 SELF-IPI 寄 存 器 写 和 中断 向 量 号 ， 即 可 发 送 一 个 边沿 触发 模式 中 断 消息 到 其 所 在 处 理 
器 。 而 且 ，SELF-IPI 寄 存 器 发 送 的 IPI 消 息 在 IRR、ISR、TMR 寄 存 器 中 均 有 记录 ， 这 就 如 同 本 条 IPI 消 
息 是 从 总 线 上 发 送 过 来 的 一 样 。 不 仅 如 此 ，SELF-IPI 寄 存 器 还 可 与 CR 寄存 器 联合 使 用 。 


特别 注意 的 是 ，SELF-IPI 寄 存 器 是 一 个 只 写 寄 存 器 ， 如 果 使 用 RDMSR 汇 编 指 令 读 取 SELF-IPI 寄 存 
器 将 触发 #GP 异 常 。 
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12.2.3 ”让 我 们 的 系统 支持 多 核 


在 掌握 了 多 核 处 理 器 间 的 IPI 通 信 机 制 (技术 ) 后 ， 本 节 将 完成 多 核 处 理 器 的 引导 、 启 动 及 初始 化 
工作 ， 以 深化 理解 IPI 通 信和 机 制 并 增强 系统 的 并 行 、 并 发 处 理 能 力 。 

鉴于 多 核 处 理 器 的 引导 初始 化 过 程 十 分 复杂 ， 出 现 问 题 难 于 调试 。 所以, 在 编程 初期 先 使 用 Bochs 
虚拟 机 进行 程序 调试 ， 待 到 初 见 规模 后 再 将 程序 组 入 到 物理 平台 中 。 

1. SMP 与 ASMP 系 统 结构 简介 

处 理 器 是 操作 系统 运行 的 载体 ， 多 个 处 理 器 意味 着 可 以 同时 运行 多 个 操作 系统 。 那 么 ,这些 处 理 
器 是 互相 协作 运行 在 一 个 操作 系统 上 ， 还 是 各 自 独立 运行 在 不 同 的 操作 系统 上 ? 这 个 问题 在 多 核 操 作 
系统 设计 之 初 必须 明确 。 只 有 确定 多 核 操作 系统 选用 的 系统 结构 ， 才 能 有 清晰 的 思路 去 编写 多 核 处 理 
器 的 引导 初始 化 程序 。 

多 核 操 作 系统 结构 大 体 上 可 分 为 SMP ( Symmetric Multi-Processing， 对 称 多 人 处理 咒 ) 系统 结构 和 
ASMP (Asymmetric Multi-Processing ， 非 对 称 多 处 理 器 ) 系统 结构 ， 以 下 是 它们 的 概念 、 特 点 以 及 启 
动 时 序 。 

@ SMP 系 统 结 构 

SMP 系 统 结构 将 多 个 处 理 器 应 用 于 同一 操作 系统 内 ， 以 增加 多 任务 的 并 行 处 理 速度 ， 图 12-9 描 绘 
了 一 个 经 典 的 SMP 系 统 结构 。 


处 理 器 处 理 器 处 理 器 处 理 器 


硬盘 
物理 内 存 | |1O 设 备 
其 他 设备 gd 
< 


图 12-9_ SMP 系 统 结构 示意 图 


当 SMP 系 统 初始 化 结束 后 ， 其 系统 结构 下 的 处 理 器 将 平等 使 用 系统 中 的 所 有 资源 。SMP 系 统 结构 
的 优势 在 于 操作 系统 对 各 个 处 理 器 的 管理 和 控制 比较 方便 ， 很 容易 实现 处 理 器 间 的 负载 均衡 。 而 且 ， 
在 设计 SMP 系 统 结构 时 ， 可 为 各 个 处 理 器 分 配 共享 的 内 存 空间 (全 部 或 部 分 )， 从 而 给 处 理 器 间 的 互 
相 访问 带 来 方便 。 但 在 处 理 需 间 共 享 资源 却 是 一 把 双 刃 剑 ， 在 共享 资源 的 同时 ， 也 给 资源 竞争 带 来 了 
诸多 潜在 隐患 。 为 了 避免 这 些 潜在 隐患 的 发 生 ，SMP 系 统 引 入 了 信号 量 、 自 旋 锁 、 原 子 变量 等 技术 ， 
将 并 行 访问 竞争 资源 的 过 程 串 行 化 。 

@ ASMP 系 统 结 构 

ASMP 系 统 结构 与 SMP 系 统 结构 恰恰 相反 。ASMP 系 统 中 的 各 个 处 理 器 在 很 大 程度 上 是 独立 运行 
的 ， 它 们 之 间 只 存在 少量 的 通信 工作 ， 图 12-10 描 绘 了 两 种 典型 的 ASMP 系 统 结 构 。 
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独 宇 物理 内 在 处理 器 处 班 器 J 独 宇 物 昌 内 在 硬盘 
处 型 瞎 处 理 晕 IO 屋 条 | 
CO 
便 似 
共 宇 物理 内 在 WO 设备 
物理 内 存 
< _ | 
(a) (b) 
图 12-10 ASMP 系统 结构 示意 图 

上 图 介绍 了 两 种 比较 典型 的 ASMP 系 统 结构 。 图 12-10a 的 特点 是 每 个 处 理 器 都 拥有 独立 的 内 存 
空间 ， 同时 它 t 享 着 系统 中 的 大 部 分 资源 ， 这 种 系统 结构 通常 应 用 于 多 操作 系统 并 存 的 环境 
下 ; 图 12-10b 的 特点 是 所 有 处 理 需 共享 内 存 空间 ， 系 统 里 的 一 些 处 理 咒 用 于 管理 和 访问 资源 ， 而 另 


2 央行 任务 。 
在 ASMP 系 统 结构 里 ， 虽 然 处 


兰 握 . 是. 


或 设计 方案 下 ， 资 源 竞 争 现象 依然 存在 。 因 此 ， 对 于 ASMP 系 统 结构 而 言 ， 


量 等 技术 依然 不 可 或 缺 。 
@ SMP 与 ASMP 系 统 结构 下 的 AP 处 理 器 启动 时 序 


口 


那么 AP 处 理 咒 的 启动 过 程 
通信 机 


就 必须 遵守 多 核 处 理 


BSP 


| 
配置 AP 处 理 器 运行 


发 送 INIT 人 


加 


出 的 Intel 多 核 处 理 器 ， 在 SMP 系 统 结构 和 ASMP 系 统 纤 


器 的 初始 化 协议 。 岁 12-11 和 
直 构 下 的 AP 处 理 器 启动 时 序 。 


APs 


广播 Start-up IPHI 


肖 息 或 逐个 发 送 Start-up IPI 消 息 品 
> 


在 硬件 系统 层面 ， 不 论 是 SMP 系 统 结构 还 是 ASMP 系 统 结构 ， 它 们 都 属于 多 核 处 到 


J 


月 .之 星 、 


和 伏 系 统 结构 ， 


处 理 器 初始 化 


等 待 AP 处 理 器 初始 化 结束 


通知 BSP 处 理 器 初始 化 结束 


| | 


图 12-12 分 别 描绘 了 基于 IPI 


执行 初始 化 程序 


配置 寄存 器 


图 12-11 SMP 系 统 


[一 


配置 系 乡 


过 运行 


处 理 器 


f 碟 


结构 下 的 AP 处 理 器 启动 时 序 图 


并 切换 运行 模式 


环境 


进入 HLT 状 态 
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从 这 两 个 


(1) 当 BSP 处 理 


有 1 MB )。 


(2) BSP 处 到 
收 到 INIT IPI 消 息 
(3) BSP 处 至 


I 1 
并 配置 AP 处 理 器 运行 环境 | 
i 发 送 INIT IPI 消 息 a 
处理 器 初始 化 
向 目标 AP 处 理 器 发 送 Start-up IPI 消 息 er 
| 执行 初始 化 程序 
i 配置 寄存 器 并 切换 运行 模式 
| 放 配置 系统 运行 环境 
通知 BSP 处 理 器 初始 化 结束 (可 选 ) 
上 下 系 统 继续 运行 -系统 正常 运行 
' 
图 12-12 ASMP 系 统 结构 下 的 AP 处 理 器 启动 时 序 图 


加 


稚 向 目标 AP 处 至 


中 可 以 看 出 AP 处 理 需 的 大 致 启动 流程 如 下 。 
器 启 动 后 ， 它 会 为 AP 处 理 器 准备 运行 环境 ， 这 一 过 程 主要 是 将 AP 处 理 器 的 初始 化 
程序 复制 到 目标 物理 地 址 处 〈《AP 处 理 器 起 初 运行 于 实 模式 ， 这 使 得 AP 处 理 器 的 物理 


后 会 进行 自身 初始 化 。 


稚 向 目标 AP 处 到 


央 发 送 Start-up IPI 消 息 


地 址 寻 址 能 力 只 


器 发 送 INIT IPI 消 息 (可 以 广播 消息 或 逐个 发 送 消 息 )。 AP 处 理 需 在 


(可 以 广播 消息 或 逐个 发 送 消息 )， 出 于 保险 


起 见 ，Intel 建 议 发 送 两 次 Start-up IPI 消 息 。AP 处 理 器 在 收 到 Start-up IPI 消 息 后 ,将 从 Start-up IPI 消 息 提 


最 终 运 行 模式 进行 系统 环境 配置 。 
(4) 对 于 SMP 系 统 结构 ， 当 BSP 处 理 器 向 所 有 AP 处 理 器 发 送 Start-up IPI 消 息 后 进入 等 待 状态 ， 等 待 


所 有 AP 处 理 器 向 其 发 送 初 始 化 结束 信和 号。 而 AP 处 至 
等 待 系统 指派 任务 。 对 于 ASMP 系 统 结构 ，AP 处 理 器 可 
接 转 去 执行 任务 ， 而 BSP 处 至 
@ SMP 系 统 结构 与 ASM 
对 于 SMP 系 统 结构 和 ASMP 系 统 结构 而 言 ， 它 们 均 可 应 


构 选 型 由 实际 应 


用 场景 决定 。 
SMP 系 统 结构 的 通用 性 比较 强 、 易 于 实现 任务 的 负载 均衡 ， 适 用 于 某 些 任务 吞吐 量 


器 也 无 需 等 待 所 有 AP 处 到 
P 系 统 结构 的 选择 


供 的 引导 程序 起 始 地 址 处 执行 。 引 导 程 序 会 对 AP 处 理 器 的 各 项 功能 进行 配置 ， 


用 于 民用 领域 或 特殊 领域 ， 具 体 的 系统 结 


时 


并 将 AP 处 理 器 切换 至 


器 在 向 BSP 处 理 顺 发 送 结束 信号 后 进入 HLT 状 态 ， 
能 不 会 向 BSP 处 理 器 发送 初 始 化 结束 信和 号 就 直 
器 初始 化 结束 后 才 继续 执行 。 


较 大 的 场景 ， 


Unix 和 Linux 操 作 系 统 丝 基于 SMP 系 统 结构 实现 。 但 在 某 些 苛刻 的 环境 下 SMP 系 统 结 构 却 不 一 定 能 满 


足 要 求 。 


ASMP 系 统 结构 在 操作 系统 的 设计 上 较为 灵活 ， 它 通常 有 着 良好 的 性 能 优势 ， 可 直接 将 任务 与 处 
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理 器 绑 定 起 来 ， 此 举 可 有 效 保证 任务 的 实时 性 和 处 理 速 度 。 但 基于 ASMP 系 统 结构 的 操作 系统 普遍 需 
要 定制 化 ， 因 此 在 特殊 领域 的 定制 化 操作 系统 中 ASMP 系 统 结构 使 用 频率 较 高 。 

考虑 到 上 述 几 点 和 操作 系统 的 易 实现 性 ， 同 时 也 为 了 方便 读者 阅读 Linux 源 码 ， 本 书 操作 系统 暂 
上 采用 SMP 系 统 结构 。 

2. 多 核 引 导 代码 

本 节 将 根据 图 12-11 描 述 的 SMP 系 统 结构 启动 时 序 来 引导 AP 处 理 器 , 其 中 将 涉及 ICR 和 其 他 附属 寄 
存 器 的 配置 过 程 。 而 且 ， 本 节 还 会 参考 多 个 版 本 的 Linux 内 核 来 编写 引导 程序 。 此 举 可 使 读者 在 完成 
多 核 引 导 程 序 的 同时 ， 减 轻 阅 读 Linux 内 核 源码 的 阻力 ， 可 谓 一 举 两 得 。 
在 编写 多 核 引 导 程 序 的 初期 ， 鉴 于 物理 平台 无 法 对 引导 程序 进行 调试 ， 又 因为 引导 程序 的 逻辑 非 
党 复杂， 整个 引导 过 程 将 涉及 多 个 运行 模式 的 配置 与 切换 。 因 此 ， 目 前 暂时 使 用 Bochs 虚 拟 机 对 多 核 
引导 程序 进行 调试 ， 待 时 机 成 熟 后 ， 再 将 其 移植 到 物理 平台 中 。 

接 下 来 ， 把 多 核 处 理 器 的 引导 过 程 分 为 几 个 阶段 ， 并 结合 代码 实现 逐 阶 段 进行 讲解 。 

@ 向 AP 处 理 器 发 送 INIT IPI 消 息 和 Start-up IPI 消 息 

在 此 前 的 操作 系统 开发 过 程 中 ， 我 们 借助 配置 Bochs 虚 拟 机 配置 文件 已 将 虚拟 机 的 处 理 器 数量 设 
置 为 1。 现 在 ， 必 须 让 Bochs 虚 拟 机 拥有 2 个 以 上 处 理 器 才能 满足 接 下 来 的 开发 要 求 。 因 此 ， 必 须 调 整 
虚拟 机 配置 文件 bpochsrc， 以 下 是 虚拟 机 处 理 器 数量 的 配置 参数 。 

CO COuntsL La wr 

配置 参数 count 可 表示 一 个 3 层 的 处 理 屁 拓扑 结构 , 读者 可 根据 个 人 需要 自行 调整 配置 参数 。 但 鉴 
于 SMP 系 统 结构 下 的 内 存 是 共享 的 ， 为 了 减少 资源 竞争 和 同步 等 现象 ， 也 为 了 更 精简 地 描述 多 核 处 理 
器 的 引导 过 程 ， 这 里 暂 日 为 Bochs 虚 拟 机 配置 一 个 拥有 两 个 逻辑 处 理 单元 的 处 理 器 。 

为 了 验证 INIT IPI 消 息 和 Start-up 了 PI 消 息 可 以 发 送 至 目标 处 理 器 ， 此 时 的 AP 处 理 器 引导 程序 不 应 
太 过 复杂 。 同 时 ， 由 于 我 们 初次 使 用 ICR 寄 存 器 发 送 IPI 消 息 ， 其 寄存 器 位 的 配置 应 该 尽量 简单 为 妙 。 
详细 的 IPI 消 息 发 送 过 程 请 参见 代码 清单 12-2。 


代码 清单 12-2 第 12 章 \ 程 序 \ 程 序 12- 和 \ 虚 拟 平台 \kernel\main.c 


void Start_Kernel (voidi) 


a 


color_printk (RED,BLACK, "pagetable init \n"); 
pagetable_init(); 

Local_APIC init(); 

Color_printk (RED,BLACK, "ICR init \n"); 


*(unsigned char *)0xffff800000020000 = 0xf4; //hilt 
_asm _ volatile _( "movg $0Ox00, SEIrdx NiiNE™ 
"movda $0Oxc4500, %%Srax NAETY 
"movd SOx830， SEIrCcx NANEY //INIT IPI 
"wrmsr NTNE™ 
"movda $0Ox00, SESrdx NAN 
"moOVvd SOxc4620,%%rax NTTNE 
"movd SOx830， SEIrcx \n\t" //Start-up IPI 
"wrmsr NINE” 


以 及 处 到 


为 了 精简 功能 ,内 核 主 程序 仅 对 Local APIC 进 行 了 初始 化 , 并 且 和 暂时 移 除 设备 驱动 程序 
地 址 0x20000 作 为 AP 处 理 器 的 引导 程序 起 始 地 址 ,该 


器 固件 信息 的 相关 程序 。 随 后 选用 物 到 
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\n\t" 
NN 
NXE //Start-up IPI 
NN 


"movd SOx00， SSrdx 
"movg SOxc4620,%%rax 
"movg sO0x830, S$SICX 
"wrmsr 

: "memory" ) ; 


~、 LO APIC 


物理 地 址 已 被 页 管理 机 制 映 射 到 线性 地 址 0xffff800000020000 人 处 ， 向 此 线性 地 址 写 入 汇编 指令 HLT 
使 处 理 器 进入 中 止 状态 (停止 运行 )， 汇 编 指 令 HLT 的 机 器 码 为 0xf4。 然 后 ， 再 通过 内 山 汇 编 语 句 的 
方式 , 借助 wRMSR 汇 编 指令 向 ICR 寄 存 器 写 人 人 IPI 消息 ， 即 向 除 


和 Start-up IPI 消 息 ( 两 次 )。 


Next at 七 =47] 
[Ox000000104efd] 0008:ffff800000104efqd (unk. ctxt): 


(0) 
ebfe 
(1) 


这 段 日 志 


性 


914670 


[Ox000000020001] 


自身 以 外 的 所 有 处 理 器 广播 INITIPI 消 息 


正常 运 运行 后 ， 终端 命令 行 会 显示 以 下 日 志 信 息 : 


RDMSR: Read 00000000:fee00900 from MSR_APICBASE 
WRMSR: wrote 00000000:fee00d00 to MSR_APICBASE 


0 (MMIO di 


sabled) 


to Ox0000fee00000 


RDMSR: Read 00000000:fee00d00 from MSR_APICBASE 


2000:0001 (unk. 


Gtxt a 


1 (MMIO en. 
ication pr 
0000000gd 
000306c3 
76036301 
00000000 
00 浊 于 2 于 
00000040 
00000077 
00000000 
00000000 
00000000 


TRI 


1 


启动 Bochs 虚 拟 机 ， 当 系统 下 

00097616235i [CPUO 

00097616240i [CPUO 

00097616240i [APICO allocate APIC id= 
00097616240i [CPUO 

00098739350i [APIC1 Deliver INIT IPI 
00098739350i [CPU1 cpu software reset 
00098739350i [APIC1 allocate APIC id= 
00098739350i [CPU1 CPU[1] is an appl 
00098739350i [CPU1 CPUID[0Ox00000000 
00098739350i [CPU1 CPUID[0Ox00000001 
00098739350i [CPU1 CPUID[0x00000002 
00098739350i [CPU1 CPUID[0Ox00000003 
00098739350i [CPU1 CPUID[Ox00000004 
000987393501[CPU1 CPUID[0Ox00000005 
000987393501[CPU1 CPUID[0Ox00000006 
000987393501[CPU1 CPUID[Ox00000007 
000987393501[CPU1 CPUID[Ox00000008 
000987393501[CPU1 CPUID[Ox00000009 
000987393501[CPU1 WARNING: Architec 
000987393501[CPU1 CPUID[0Ox0000000a 
000987393501[CPU1 CPUID[0Ox0000000p] : 
00098739350i [CPU1 CPUID[0Ox0000000c 
000987393501[CPU1 CPUID[0Ox0000000d] : 
00098739355i [APIC1 Deliver Start Up 
00098739355i [CPU1 CPU 

00098739355i [CPU1 W. 

00098739360i [APIC1 Deliver Start Up 
00098739360i [CPU1 CPU 
^CO00471914665i[ ] 


abled) to 
ocessor. 

756e6547 
01020800 
O00f0b5ff 
00000000 
01c0003f£ 
00000040 
00000002 
000027a9 
00000000 
00000000 


jmp 


add byte ptr ds: 
言 息 中 的 [APIC1 ] Deliver INIT IPI 表 示 CPU1 已 收 到 INIT IPI 消 息 。 随 后 ，CPU1 
F 始 进行 自身 初始 化 ， 并 进入 停止 状态 等 待 接收 Start-up IPI 消 息 。 而 日 志 信 息 [APIC1 ] Deliver 


Ox0000fee00000 


Halting until SIPI. 


6c65746e 
77faf3bf 
00000000 
00000000 
0000003f£ 
00000003 
00000009 
00000000 
00000000 
00000000 


49656e69 
bfebfbff 
00c10000 
00000000 
00000000 
00042120 
00000000 
00000000 
00000000 
00000000 


tural Performance Monitoring is not implemented 
07300403 00000000 00000000 00000603 
00000001 00000002 00000100 00000001 
00000000 00000000 00000000 00000000 
00000007 00000240 00000340 00000000 


1 started up at 2000:00000000 by APIC 
ARNING: HLT instruction with IF=0! 


1 started up by APIC, but was not halted at that time 
Ctrl-C detected in signal handler. 


.-2 (Oxffff800000104efd) ; 


[bx+si], al ; 0000 
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Start Up IPI 则 表明 CPU1 已 收 到 Start-up IPI 消 息 ， 其 后 的 [cPU1 ] 
2000:00000000 by APIC 则 说 明 CPU1 已 从 物理 地 址 0x20000 处 姑 
的 值 为 0x2000， 卫 寄存 器 的 值 为 0。 又 因为 CPU1 执 行 的 第 
中 止 状 态 , 并 置 位 中 断 标 志 位 IF， 因 此 终端 命令 行 才 会 显示 [CPU1 ] 


with IF=0!6 


现 两 次 。 


现在 ， 向 终 


4 于 Start-up IPI 消 息 投递 了 两 次 ， 


条 


所 以 [CPU1 


CPU 1 started up at 
F 始 执行 ， 此 时 代码 段 寄 存 器 CS 
条 汇编 指令 是 HLT， 于 是 CPU1 便 进入 
WARNING: HLT instruction 


] CPU 1 started up 字样 才 会 出 


行 键 入 Ctrlt+C 按 键 进入 DBG 调 试 命令 行 ， 虚 拟 机 将 暂停 运行 。 最 后 3 行 显示 了 


CPU0 和 CPU1 正 在 执行 的 位 置 ， 其 中 包括 代码 段 的 基地 址 值 ( CPU1 运 行 于 实 模 式 ) 和 段 选择 子 ( CPU0 
运行 于 IA-32e 模 式 )、( R ) IP 寄 存 右 值 。 

向 调试 命令 行 输 入 命令 set scpu = 1 可 切换 调试 处 理 嚣 ， 随 即 输入 调试 命令 + 和 sreg 查 看 CPU1 
的 段 寄 存 器 信息 与 通用 寄存 器 信息 ， 其 查询 结果 大 致 如 下 : 


与 Start-up IPI 消 
条 汇编 指令 是 可 


<bochs:2> set Scpu = 1 
<bOGhss 3 Tr 


CPU1:; 

rax: 00000000_00000000 
rdx: 00000000_00000000 
rsp: 00000000_00000000 
rsi: 00000000_00000000 
r8 00000000_00000000 
r10: 00000000_00000000 
r12: 00000000_00000000 
r14: 00000000_00000000 
rip: 00000000_00000001 


eflags 0x00000002: 
<bochs:4> sreg 


es:0x0000, dh=0x00009300,， 


Data segment, 
cs 
Data segment, 


ss:0x0000, dh=0x00009300, 


Data segment, 
ds: 
Data segment, 


fs:0x0000, dh=0x00009300, 


Data segment, 


gs:0x0000, dh=0x00009300, 


Data segment, 
ldtr:0x0000, 


:0x2000, dh=0x00009302,， 


Ox0000, dh=0x00009300, 


ep. 
EDX 
rbp: 
Pal 
r9 

下 二 
人 
r15: 


00000000_00000000 
00000000_00000000 
00000000_00000000 
00000000_00000000 
00000000_00000000 
00000000_00000000 
00000000_00000000 
00000000_00000000 


dl=0x0000ffff, valid=7 
base=0x00000000， 
dl=s0x0000fEff., valid=T 
base=0x00020000， 
dl=0x0000ffff, valid=7 
base=0x00000000， 
dl=0x0000ffff, valid=7 
base=0x00000000， 
dl=0x0000ffff, valid=7 
base=0x00000000， 
dl=0x0000ffff, valid=7 
base=0x00000000， 
qh=0x00008200， 
tr:0x0000，qh=0x00008pb00， 
gqtr:pase=0x0000000000000000， 
iatr:base=0x0000000000000000， 


limit=0x0000ffff 


limit=0x0000ffff 


limit=0x0000ffff 


limit=0x0000ffff 


limit=0x0000ffff 


limit=0x0000ffff 


dl=0x0000ffff, valid=1 
dl=0x0000ffff, valid=1 


limit=0xffff 
limit=0xffff 


Read/Write, 


Read/Write, 


Read/Write, 


Read/Write, 


Read/Write, 


Read/Write, 


Le MID Vif -ac vi TE nt .TOPDSO :OE 'dE 下 下 七 二 -区 二 下 Ef BE .GE 


Accessed 


Accessed 


Accessed 


Accessed 


Accessed 


Accessed 


从 日 志 信息 可 知 ， 代 码 段 寄存 器 CS 的 值 为 0x2000， 此 值 在 实 模 式 下 表示 物理 地 址 0x20000， 这 


@ 配置 AP 处 理 器 执行 环境 并 切换 运行 模式 


经 过 INIT IPI 消 息 和 Start-up IPI 消 


息 的 投递 实验 后 ， 现 在 将 为 AP 处 理 需 编 


息 的 Vector 位 域 值 0x20 相 符 。RIP 寄 存 右 值 为 0x01， 这 也 是 因为 AP 处 理 右 执行 的 第 
DT。 其 他 段 寄 存 器 尚未 进行 初始 化 ， 它 们 的 寄存 器 值 缘 为 0。 


写 引 导 程 序 。 昌 然 引 导 
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程序 并 不 长 ， 但 它 却 浓缩 了 处 理 器 从 实 模式 切换 至 IA-32e 模 式 的 整个 过 程 。 接 下 来 将 这 段 星 涩 的 程序 
拆 分 成 多 段 ， 再 逐一 进行 讲解 。 

代码 清单 12-3 是 引导 程序 人 口 ， 这 部 分 程序 完成 了 一 些 必 需 的 准备 工作 ， 以 使 引导 程序 能 在 AP 处 
理 需 中 顺利 执行 。 


代码 清单 12-3 ”第 12 章 \ 程 序 \ 程 序 12-3\ 虚 拟 平台 \kernel\APU _ boot.S 


#include "linkage.h" 


.balign 0x1000 


.text 
.Codel16 


ENTRY (_APU_boot_start) 


_APU_boot_base = . 


(on 
wbinvd 
mov $Ccs, Sax 
mov Sax, $ds 
mov Sax, Ses 
mov Sax, $ss 
mov Sax, Sfs 
mov Sax, Sgs 
# set sp 
movil $(_APU_ boot_tmp_Stack_end - _APU_boot_ base), Sesp 


这 段 代 码 中 的 伪 指 令 .balign 0x1000 负 责 将 程序 计数 器 按 4 KB 边界 对 齐 。 由 于 AP 处 理 器 初始 
运行 在 实 模式 下 ， 因 此 随后 使 用 伪 指 令 .code16 对 运行 于 实 模 式 下 的 程序 加 以 修饰 。 宏 代码 
ENTRY (_APU_boot_start) 和 ENTRY (_APU_boot_end) 定义 了 一 对 全 局 地 址 标识 符 ， 它 们 代表 AP 
处 理 器 引导 程序 的 起 始 地 址 和 结束 地 址 。 标 识 符 _APU_boot_base 代 表 引 导 程 序 编译 链接 后 的 绝对 地 
址 ， 此 处 的 符号 .在 功能 上 与 链接 脚本 中 的 符号 .十 分 相似 ,表示 程序 定位 器 的 当前 位 置 (线性 地 址 )， 
其 与 标识 符 _APU_boot_base: 的 作用 相似 。 

本 段 程 序 首先 通过 汇编 指令 cLI 复 位 中 断 使 能 标志 位 正 ， 再 执行 汇编 指令 WBINVD 将 处 理 器 缓存 同 
步 到 物理 内 存 中 。 紧 接着 ,初始 化 各 个 段 寄存 器 和 栈 指针 寄存 器 ESP。 最 后 一 行 代 码 中 的 源 操作 数 
$s (_APU_boot_tmp_Stack_enqd - _APU_boot_base) 代 表 栈 顶 地 址 距 栈 基地 址 的 偏 移 ， 即 使 用 栈 
顶 地 址 _APU_boot_tmp_Stack_end 减 去 引导 程序 的 起 始 地 址 _APU_boot_base。 因 为 栈 段 寄存 器 SS 
的 物理 基地 址 与 代码 段 (引导 程序 ) 的 起 始 物理 地 址 同 为 0x2000， 所 以 栈 顶 物理 地 址 为 0x20000 加 
S(_APU_boot_tmp_Stack_endq - _APU_ boot_base)。 

因为 我 们 的 系统 内 核 位 于 1 MB 以 上 物理 内 存 空间 ， 这 是 Start-up IPI 消 息 无 法 指定 的 引导 地 址 ， 故 
此 必须 将 AP 处 理 器 的 引导 程序 复制 到 物理 地 址 0x20000 处 。 这 也 导致 编译 链接 后 的 绝对 地 址 不 正确 ， 
这 些 绝对 地 址 值 必须 重新 计算 。 那 么 接 下 来 就 通过 代码 清单 12-4 重 新 计算 出 这 些 绝对 地 址 。 


444 第 12 章 进程 管理 


代码 清单 12-4 ”第 12 章 \ 程 序 \ 程 序 12-3\ 虚 拟 平台 \kernel\APU boot.S 


# get base address 


mov SCs, Sax 
movzx Sax, Sesi 
shlil $4, Sesi 


# set gqt and 32&64 code address 


leal (_APU_Code32 - _APU_ boot_base) (%esi), Seax 
movil Seax, _APU_Code32_vector - _APU_boot_base 
leal (_APU_Code64 - _APU_boot_base) ($esi), Seax 
movil Seax, _APU_Code64_ vector - _APU_boot_base 
leal (_APU_tmp_GDT - _APU_ boot_base) ($esi), Seax 
movl Seax, (_APU_tmp_GDT + 2 - _APU_boot_base) 


这 上段 程序 先 通过 代码 段 寄 存 器 CS 取得 引导 程序 的 物理 基地 址 , 再 将 各 绝对 地 址 的 段 内 偏 移 值 重 新 
与 物理 基地 址 ( 保存 于 ESI 寄 存 器 内 ) 相 加 ， 并 通过 LEA 汇 编 指 令 把 计算 后 的 有 效 地 址 保存 在 EAX 寄 存 
器 中 。 最 后 ， 将 EAX 寄存 器 中 的 有 效 地 址 更 新 至 远 跳 转 指令 的 目标 地 址 部 分 。 例 如 ， 代 码 


(_APU_Code32 - _APU_boot_base) (sesi) 用 于 计算 标识 符 _APU_coqe32 的 起 始 物理 地 址 ， 将 该 


地 址 值 保存 在 远 跳 转 地 址 _APU_code32_vector (由 段 选 择 子 和 段 内 偏 移 组 成 ) 的 段 内 


局 移 部 分 。 


当 计 算出 有 效 地 址 值 后 ， 处 理 器 的 运行 模式 便 可 切换 ， 代 码 清 单 12-5 负 责 从 实 模式 切换 至 保护 


模式 。 
代码 清单 12-5 ”第 12 章 \ 程 序 \ 程 序 12-3\ 虚 拟 平台 \kernel\APU _ boot.S 
# load idt gdt 


11.Gt1 APU_tmp_IDT - _APU_ boot_base 
1dgdqt1 APU_tmp_GDT - _APU_boot_base 


# enable protected mode 


smsw Sax 
bts $0 ， Sax 
lJ]msw Sax 


# go to 32 code 
1jmpl *(_APU_Code32_vector - _APU_boot_base) 


此 段 代码 以 加 载 GPDT 和 IDT 为 开始 ， 这 两 个 加 载 指令 均 使 用 段 内 偏 移 地 址 ， 它 们 也 是 通过 计算 而 
得 。 然 后 ,借助 汇编 指令 smsw 和 LMsw 操 作 CRO0 控 制 寄 存 器 以 开启 保护 模式 ( 通过 BTS 指 令 置 位 CR0.PE 
标志 位 )。 最 后 使 用 汇编 代码 1jmpl( 绝对 地 址 远 跳 转 指 令 ) 跳 转 至 地 址 _APU_coqe32 处 执行 保护 模式 
代码 ， 远 跳 转 地 址 _APU_Code32_vector 内 保存 的 数值 为 0x08: (_APU_Code32 - _APU_boot_base) 


(sesi) (〈 段 选择 子 : 段 内 偏 移 )。 


准备 。 代 码 清单 12-6 可 将 AP 处 理 器 从 保护 模式 切换 至 IA-32e 模 式 。 


至 此 ，AP 处 理 需 运行 在 保护 模式 。 当 AP 处 理 器 进入 保护 模式 后 ， 它 将 继续 为 进入 IA-32e 模 式 做 
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代码 清单 12-6 ”第 12 章 \ 程 序 \ 程 序 12-3\ 虚 拟 平台 \kernel\APU boot.S 


.Code32 

.balign 4 
_APU_Code32: 

# go to 64 code 


mov SOx10 Sax 

mov Sax, $ds 

mov Sax, Ses 

mov Sax, $ss 

mov Sax, $fs 

mov Sax, Sgs 

leal (_APU_boot_tmp_Stack_end - _APU_boot_ base) ($esi), Seax 
movil Seax, Sesp 


mov Scr4 Seax 
bts SD Seax 
mov Seax Scr4 


# set page table 


movil SOxXx90000 ， Seax 
movil Seax, $Cr3 


# enable long mode 


movil SOxC0000080， Secx 
rdmsr 

bts SB Seax 

wrmsr 


# enable PE & paging 


movil Scr0, %Seax 
bts S03 Seax 
bts 3 Seax 
movil Seax, Scr0 
1jmp *(_APU_Code64 vector - _APU_boot_ base) ($esi) 


代码 清单 12-6 首 先 为 保护 模式 初始 化 运行 环境 ， 这 一 过 程 包括 初始 化 各 段 寄 存 器 和 ESP， 此 处 的 
栈 顶 地 址 仍然 采用 段 基 地 址 〈 保 存在 ESI 寄 存 器 内 ) 加 段 内 偏 移 (通过 代码 _APU_boot_tmp 
Stack_enq - _APU_boot_base 计 算 而 得 ) 的 方法 得 到 。 

随后 ， 这 段 程 序 将 为 IA-32e 模 式 准 备 运行 环境 。 为 了 节省 空间 ， 此 处 选择 复 用 BSP 处 理 器 在 引导 
阶段 使 用 的 临时 页 表 ， 页 目录 的 物理 基地 址 为 0x90000。 经 过 漫长 的 寄存 器 配置 过 程 ， 最 终 依 然 通过 
绝对 地 址 远 跳 转 指令 实现 从 保护 模式 向 IA-32e 模 式 切换 过 程 。 


446 第 12 章 进程 管理 
当 AP 处 理 器 进入 IA-32e 模 式 后 ， 不 要 忘记 重新 初始 化 各 段 寄 存 澡 。 代 码 清单 12-7 人 负责 完成 IA-32e 
模式 的 运行 环境 初始 化 工作 。 
代码 清单 12-7 第 12 章 \ 程 序 \ 程 序 12-3\ 虚 拟 平台 \kermel\APU_boot.S 
.Code64 
.balign 4 
_APU_Code64: 
# go to head.s 
movd $0Ox20, Srax 
movd Srax, $ds 
movd Srax, Ses 
movd Srax, $fs 
movg Srax, Sgs 
IOVG Srax, $ss 
hit 
现在 ，AP 处 理 器 已 经 完成 运行 模式 的 切换 工作 。 代 码 清 单 12-8 是 引导 程序 的 剩余 部 分 ， 其 中 保存 


代码 清单 12-8 第 


.balign 4 


着 模式 切换 过 程 所 必需 的 描述 符 表 、 


远 跳 转 地 址 以 及 栈 空 间 等 数据 。 


12 章 \ 程 序 \ 程 序 12-3\ 虚 拟 平台 \kernel\APU_boot.S 


_APU_tmp_IDT: 


.Word 
.Word 


.balign 4 


0 
0,0 


_APU_tmp_GDT : 


.Short 
“FOng 
.Short 
.Guad 
.Guad 
.Guad 
.Guad 
_APU_tmP_GDT 


.balign 4 

_APU_Code32 
.long 
.Word 


.balign 4 

_APU_Code64 
:LONng 
.Word 


.balign 4 


APU_tmp_GDT_end - _APU_ tmp_GDT - 1 
APU_tmp_GDT - _APU_boot_base 

0 

Ox00cf9a000000f£fff 
Ox00cf£92000000f£fff 
0x0020980000000000 
0x0000920000000000 


_end: 


.VOCLOL'? 


_APU_Code32 - _APU_boot_base 


Ox08,0 


ER 人 下 


_APU_Code64 - _APU_boot_base 


Ox18,0 


APU_boot_tmp_Stack_start: 


TY 


Ox400 


APU_boot_tmp_Stack_endgd: 


ENTRY ( 


_APU_boot_eng) 
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代码 清单 12-8 为 引导 程序 定义 了 GDT、IDT 以 及 各 模式 的 远 跳 转 地 址 。 此 人 处 的 GDT 不 仅 包 含 了 保 
护 模 式 的 代码 段 描 述 符 和 数据 段 描述 符 ， 还 包含 了 IA-32e 模 式 的 代码 段 描述 符 与 数据 段 描 述 符 。 远 跳 
转 地 址 _APU_Code32_vector 记 录 着 32 位 保护 模式 的 目标 段 选择 子 和 段 内 偏 移 ， 而 远 跳 转 地 址 
_APU_Cogde64_vector 则 记录 着 32 位 兼容 模式 ( 32 位 IA-32e 模 式 ) 的 目标 段 选择 子 与 段 内 偏 移 。 

多 核 处 理 需 的 引导 程序 借助 伪 指 令 .org 0x400， 将 引导 程序 的 长 度 限 制 在 0x400 (1 KB )， 其 中 
的 低地 址 部 分 保存 着 可 执行 程序 、 描 述 符 表 以 及 远 跳 转 地 址 等 信息 ， 而 高 地 址 部 分 则 预 留 给 栈 空间 使 
用 ， 即 标识 符 _APU_boot_tmp_Stack_start 至 _APU_boot_tmp_Stack_engd 的 内 存 空 间 。 

尽管 多 核 处 理 器 的 引导 程序 现 已 实现 , 但 还 需要 借助 特殊 手段 才能 将 其 加 载 至 物理 地 址 0x20000 
处 。 引 导 程 序 中 定义 的 标识 符 _APU_boot_start 和 _APU_boot_end 标 明了 引导 程序 的 起 始 地 址 和 结 
束 地 址 ， 只 需 在 内 核 程 序 中 声明 这 两 个 标识 符 即 可 对 引导 程序 进行 任何 操作 。 处 理 器 之 所 以 能 对 代码 
段 程 序 进 行 任何 操作 ， 主 要 是 因为 系统 的 代码 段 与 数据 段 互相 重合 ， 对 数据 段 的 任何 操作 均 可 在 代码 
段 中 反映 出 来 。 代 码 清单 12-9 是 这 两 个 标识 符 的 声明 。 


代码 清单 12-9 ”第 12 章 \ 程 序 \ 程 序 12-3\ 虚 拟 平台 \kernel\SMP.h 


extern unsigned char _APU boot_start[]; 
extern unsigned char _APU_ boot_end[]; 


引导 程序 的 始末 地 址 有 了 ， 现 在 仅 需 执行 hemcpy 了 水 数 将 引导 程序 复制 到 目标 地 址 便 可 实现 引导 
程序 的 加 载 过 程 ， 具 体 加 载 过 程 请 看 代码 清单 12-10。 
代码 清单 12-10 ”第 12 章 \ 程 序 \ 程 序 12-3\ 虚 拟 平台 \kernel\SMP.c 


void SMP_init() 


color_printk (WHITE,BLACK, "SMP copy byte:%#010x\n", (unsigned long)é&_ APU_ boot_end 
- (unsigned 1ong)&_APU_ boot_start); 
memcpy (_APU_boot_start, (unsigned char *)0xffff800000020000, (unsigned 
long)&_APU_boot_ end - (unsigned long)&_ APU boot_start); 
} 


函数 sSMP_init 不 但 追加 了 引导 程序 的 加 载 代 码 ， 还 将 引导 程序 的 加 载 长 度 打印 出 来 。 

为 了 增加 程序 的 易 读 性 ， 本 系统 还 将 MSR 寄 存 器 的 操作 指令 WRMSR 与 RDMSR 封 装 成 函数 ， 使 得 内 
核 主 程序 可 采用 函数 调用 方法 来 发 送 IPI 消 息 ， 修 改 后 的 代码 如 代码 清单 12-11 所 示 。 
代码 清单 12-11 第 12 章 \ 程 序 \ 程 序 12-3\ 虚 拟 平台 \kernel\main.c 


void Start_Kernel (void) 


Local_APIC_ init(); 
COlor printk (RED,BLACK, "ICR init \n"); 
SMP_init(); 


wrmsr (0x830, 0xc4500);，; //INIT IPI 
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wrmsr (0x830, 0xc4620);，; //Start-up IPI 
wrmsr (0x830, 0xc4620); //Start-up IPI 


运行 Bochs 虚 拟 机 ， 在 系统 运行 效果 出 现 后 ， 向 DBG 调 试 命令 行 输入 相关 命令 查看 AP 处 理 器 
( CPU1 ) 的 寄存 器 值 。 键 和 人 命令 a 停 止 运行 虚拟 机 。 在 虚拟 机 执行 a 命 令 期 间 ，DBG 调 试 命令 行 会 打印 
出 当前 所 有 处 理 器 的 运行 模式 和 一 些 重要 的 寄存 需 值 ， 其 显示 信息 大 致 如 下 ;: 


<bOGhsr2> 9 


008230640001 dbg: Quit 

00823064000i[CPUL1 CPU is in long mode (halted) 

00823064000i [CPU1 CS.mode = 64 bit 

00823064000i [CPU1 SS.mode = 64 bit 

00823064000i [CPU1 IOPL=0 id vip vif ac vm rf nt of df if tf sf zf af PF cf 
00823064000i [CPU1 SEG sltr(index|ti|rpl) base limit G D 
00823064000i [CPU1 CS:0018( 00031 0| 0) 00000000 00000000 0 0 
00823064000i [CPU1 DS:0020( 0004| 0| 0) 00000000 00000000 0 0 
00823064000i [CPU1 SS:0020( 00041 01 0) 00000000 00000000 0 0 
00823064000i [CPU1 ES:0020( 0004| 0| 0) 00000000 00000000 0 0 
008230640001 [CPU1 FS:0020( 0004| 0| 0) 00000000 00000000 0 0 
008230640001 [CPU1 GS:0020( 0004| 0| 0) 00000000 00000000 0 0 
00823064000i [CPU1 MSR_FS_BASE:0000000000000000 

00823064000i [CPU1 MSR_GS_BASE:0000000000000000 

00823064000i [CPU1 RIP=00000000000200c3 (00000000000200c3) 

00823064000i [CPU1 CRO=0xe0000011 CR2=0x0000000000000000 

00823064000i [CPU1 CR3=0x00090000 CR4=0x00000020 

从 这 段 日 志 信 息 可 知 ， 目 前 CPU1 正 运行 于 长 模式 下 并 处 于 中 止 状态 ， 其 CS 指向 段 选 择 子 0x18， 


它 对 应 的 段 描述 符 值 为 0x0020980000000000， 而 各 数据 段 寄 存 器 则 指向 段 选择 子 0x20， 其 对 应 的 
段 描 述 符 值 为 0x0000920000000000。 

@ 配置 多 核 操 作 系 统 运行 环 境 

随 着 AP 处 理 器 引导 初始 化 结束 ， 它 将 由 操作 系统 接管 并 融 为 操作 系统 的 一 部 分 。 因 此 ，AP 处 理 
器 进入 IA-32e 模 式 后 ,我 们 还 需要 为 其 准备 操作 系统 运行 环境 。 通 常 做 法 是 让 AP 处 理 器 跳 转 至 内 核 执 
行头 程序 中 ， 有 选择 地 执行 系统 环境 配置 代码 。 

BootLoader 在 执行 阶段 已 将 本 系统 加 载 至 1 MB 物理 地 址 处 ， 因 此 AP 处 理 右 应 该 跳 转 至 1 MB 物理 
地 址 处 ， 其 跳 转 代码 请 参见 代码 清单 12-12。 


代码 清单 12-12 ”第 12 章 \ 程 序 \ 程 序 12- 人 虚拟 平台 \kerneN\APU boot.S 


.Code64 

.balign 4 
_APU_Code64: 

# go to head.s 


movgd SOx100000， Srax 
jmpq *Srax 


hilt 
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现在 ，AP 处 理 咒 的 引导 工作 已 正式 宣布 结束 。 接 下 来 ，AP 处 理 器 将 跳 转 至 内 核 执行 头 程序 去 


构建 操作 系统 运行 环境 。 对 于 AP 处 理 器 而 言 ， 它 只 需 加 载 操作 系统 的 各 类 描述 符 表 即 可 ， 而 不 应 该 
重复 执行 操作 系统 的 各 个 初始 化 模块 。 所 以 ,我 们 必须 为 AP 处 理 器 准备 一 个 执行 分 支 ， 以 防止 AP 
处 理 器 执行 内 核 主 程序 。 出 于 此 种 考虑 ， 特 为 AP 处 理 器 创建 了 一 个 名 为 start_SMP 的 分 支 函数 ， 
代码 清单 12-13 描 述 了 AP 处 理 器 如 何 从 内 核 执 行头 程序 跳 转 至 start_sMP 孙 数 。 


代码 清单 12-13 ”第 12 章 \ 程 序 \ 程 序 12- 人 虚拟 平台 \kernel\head.S 


entry64: 
movg SOX1b， SrcCx //if APU 
rdmsr 
bt S8 Srax 
jnc start_smp 
setup_IDT: 


start_smp: 


movg go_to_smp_kernel (S$rip), Srax 
pushqa SOx08 

Pushd Srax 

lretqa 


go_to_smp_kernel: 
.quad Start_SMP 


TSS64_POINTER: 


/* movgq address */ 


TSS64_LIMIT: .word TSS64_END - TSS64_ Table - 1 


TSS64_BASE: .quad TSS64_Table 


当 AP 处 理 器 加 载 了 操作 系统 的 GDT、IDT 以 及 顶层 页 表 PML4 的 物理 基地 址 后 ， 会 借助 汇编 代码 


lreta 跳 转 至 内 核 代码 entry64 处 继续 执行 。 


内 核 代 但 entry64 会 根据 IA32_ APIC_BASE.BSP[8] 标 志 位 提供 的 处 理 器 类 型 ， 为 处 理 器 选择 不 同 


的 执行 分 支 。 当 AP 处 理 器 执行 到 此 处 时 ，AP 处 理 器 将 跳 转 


至 内 核 代 码 start_smpb 处 » 进而 执行 函数 


start_sMP。 与 此 同时 ,我们 还 发 现 标 识 符 TSS64_POINTER 处 定义 的 数据 是 无 用 的 ， 为 防止 混淆 思 


路 现 已 将 其 删除 。 


其 函数 实现 。 


目前 ， 函 数 start_SMP 主 要 负责 使 能 Local APIC 并 打印 AP 处 理 器 的 Local APIC ID 值 ， 代 码 清单 12-14 是 


代码 清单 12-14 ”第 12 章 \ 程 序 \ 程 序 12- 外 虚拟 平台 \kernelNSMPec 


Volid Start_SMP() 
{ 


unsigned int x,y; 
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Color_printk (RED,YELLOW, "APU starting...... NIL 


//enable xAPIC & x2APIC 


_asm _ volatile _( "movd $0Oxlb, SEIrcx NNNE” 
"rdmsr \n\t" 
"bts ST0> SSrax NTINE 7 
"bts Sl S$%Srax NSNEY 
"wrmsr NHNE 
"moOVdG $0Oxlb, SEIrcx \n\t" 
"rdmsr NAN 
: "=a" (Xx), "=d" (y) 
:"memory"); 
if (x&O0xc00) 
color_printk (RED,YELLOW, "XAPIC & x2APIC enabled\n"); 
//enable SVR[8] 
_asm _ volatile __( "mova SOx80f, SEIrcx NIDNE 
"rdmsr STAND 
"bts S85 SESrax NANEY 
从 "bts $2 SSrax SHNCN 
"wrmsr \TiNt™ 
"mova SOx80f, SSrcx \n\t" 
"rdmsr Nr Ct 
:"=a" (XxX), "=d" (y) 
:"memory");} 
if (x&O0x100) 
Color_printk (RED,YELLOW, "SVR[8] enabled\n"); 
if (x&0x1000) 
Color_printk (RED,YELLOW, "SVR[12] enabled\n"); 
//get local APIC ID 
_asm _ volatile _( "movgq SOx802， SEIrcx NHN 
"rdmsr XXX 
:"=a" (XxX), "=d" (y) 
: "memory"); 


color_printk (RED,YELLOW, "x2APIC ID:%#010x\n",x); 
hlit(); 
} 


这 段 程序 的 代码 全 部 来 自 于 Local_APIC_init 函 数 , 目前 Bochs 虚 拟 平台 暂 不 支持 禁止 广播 EOI 


消息 功能 ， 所 以 此 处 只 能 关闭 该 功能 。 


鉴于 操作 系统 尚未 给 AP 处 理 需 指派 任务 ， 因 此 当 AP 处 理 器 执行 完 Start_S 


进入 中 止 状态 ， 以 待 其 它 功能 实现 后 再 做 完善 。 此 次 的 函数 hlt 只 是 汇编 


间 今 HL 


P 羡 数 后 ， 暂 且 让 其 
"的 简单 封装 。 


为 了 增加 IPI 消 息 的 可 视 化 程度 ， 特 为 其 定义 struct INT_CMD_REG 结 构 体 来 描述 各 寄存 器 位 的 
状态 ， 其 使 用 方法 与 struct IO_APIC_RET_entry 结 构 体 相似 。 代 码 清 单 12-15 是 基于 这 个 结构 体 的 


IPI 消 息 配置 及 发 送 过 程 。 


代码 清单 12-15 ”第 12 章 \ 程 序 \ 程 序 12- 仆 虚拟 平台 \kernel\main.c 


void Start_Kernel (void) 


{ 
struct INT_CMD_ REG icr_entry; 
SMP_init(); 
icr_entry.vector = 0x00; 
icr_entry.deliver mode = APIC_ICR_ IOAPIC_ INIT; 
icr_entry.dest_mode = ICR_IOAPIC_ DELV_PHYSICAL; 
icr_entry.deliver_status = APIC_ICR_ IOAPIC Idle; 
icr_entry.res_1 = 0; 
icr_entry.level = ICR_ LEVEL DE_ ASSERT; 
icr_entry.trigger = APIC_ ICR_IOAPIC Edge; 
icr_entry.res_2 = 0; 
icr_entry.dest_shorthand = ICR_ ALL EXCLUDE_ Self; 
icr_entry.res_3 = 0; 
icr_entry.destination.x2apic destination = 0x00; 
wrmsr (0x830,*(unsigned long *)&icr_entry); //INIT IPI 
icr_entry.vector = 0x20; 
icr_entry.deliver mode = ICR_ Start_up; 
wrmsr (0x830,* (unsigned long *)&icr_entry); //Start-up IPI 
wrmsr (0x830,*(unsigned long *)&icr_entry); //Start-up IPI 
} 


现在 ，AP 处 理 右 已 初步 组 入 到 操作 系统 中 ， 图 12-13 是 它 在 Bochs 虚 拟 机 中 的 运行 效 


Bochs x86-64 emulator, http://bochs.sourceforge.net/ 


)D00014t00C x00DD00000000C 


000000000 ad :bx ffff800000 
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0000000000001 
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dxffff0DO00: rk :Dxf fff8000001B7f10 
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图 12-13 多核 引 导 代 码 执行 效果 图 


个 o 
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图 12-13 是 这 段 程序 的 理想 运行 效果 ， 其 实际 效果 却 不 尽 人 意 。 在 程序 的 执行 过 程 中 ，Bochs 虚 拟 
机 的 CPU1 运 行 衣 演 ， 当 DBG 调 试 命令 行 显示 日 志 信 息 (1) .[97922990] ??? (physical address 
not available) 后 ，Bochs 虚 拟 机 自动 重 置 系统 硬件 环境 。 

结合 程序 的 反 汇 编 代码 分 析 AP 处 理 器 的 各 寄存 器 值 ， 结 果 发 现 内 存 初始 化 函数 init_memory 的 
最 后 几 行 代码 已 经 清除 了 线性 地 址 0x0 与 0xffff800000000000 处 的 重 映 射 ， 从 而 导致 内 核 执 行头 程 
序 在 运行 过 程 中 缺 页 ， 无 法 继续 执行 。 故 此 ， 必 须 恢复 这 两 处 地 址 的 重 映射 才能 使 程序 顺序 执行 ， 调 
整 后 的 代码 如 代码 清单 12-16。 


代码 清单 12-16 第 12 章 \ 程 序 \ 程 序 12- 人 虚拟 平台 \kernelmemory.c 


void init_ memory () 


ml 


// for(i = 0;i < 10;i++) 
// *(Phy_To_Virt(Global_CR3) + i) = 0UL; 
flush tlb(); 

} 


经 过 此 番 修 改 后 ， 本 系统 已 经 可 以 达到 如 图 12-13 描 绘 的 运行 效果 。 纵 观 本 节 编 写 的 AP 处 理 器 启 
动 与 引导 过 程 ， 如 果 仅 为 了 让 AP 处 理 器 正常 工作 ， 其 实现 过 程 并 不 复杂 ， 可 是 当 AP 处 理 器 融和 人 系统 
环境 后 ， 操 作 系统 如 何 管理 它们 均衡 的 负载 任务 却 十 分 困难 ， 这 也 是 多 核 操作 系统 的 精髓 所 在 。 

3. 多 核 的 异常 处 理 

为 了 尽早 探测 到 AP 处 理 器 在 运行 时 出 现 的 故障 ， 本 节 将 为 其 实现 异常 捕获 功能 。AP 处 理 器 在 运 

行内 核 执行 头 程序 的 过 程 中 已 经 加 载 了 GDT 和 IDT, 这 使 得 所 有 处 理 器 共用 同一 个 中 断 向 量 表 。 可 是 ， 
由 于 AP 处 理 器 尚未 拥有 独立 的 TSS 描 述 符 和 栈 空间 ， 那么 在 AP 处 理 器 出 现 故障 或 操作 栈 空 间 时 ， 系 统 
将 会 月 演 。 
4 此 看 来 ， 若 想 实 现 AP 处 理 器 的 异常 捕获 功能 ， 必 须 为 每 个 处 理 器 分 配 独 立 的 TSS 描 述 符 和 栈 空 
间 。 在 操作 系统 启动 之 初 ， 即 BSP 处 理 器 运行 之 时 ， 内 核 执行 头 程序 通过 标识 符 _stack_start 来 保 
存 操作 系统 第 一 个 进程 的 栈 顶 地 址 。 设 计 这 个 标识 符 的 巧妙 之 处 在 于 BSP 处 理 吉 可 借助 此 标识 符 向 AP 
处 理 器 传递 栈 顶 地 址 ， 也 就 是 说 ，BSP 处 理 器 在 发 送 IPI 消 息 之 前 ， 可 先 为 AP 处 理 器 开辟 独立 的 栈 空间 
(包括 PCB )， 并 将 栈 顶 地 址 保存 在 标识 符 _stack_start 内 ， 这 个 栈 空 间 会 在 AP 处 理 器 运行 内 核 执行 
头 程序 时 使 用 。 

与 此 同时 ， 为 了 保证 每 个 处 理 器 都 拥有 独立 的 TSS 描 述 符 ， 我 们 还 需要 扩充 GDT 的 容量 以 容纳 更 多 
的 TSS 描 述 符 , 综 上 所 述 , 下 面 将 对 内 核 执行 头 程序 进行 修改 , 代码 清单 12-17 是 需要 修改 和 关注 的 内 容 。 


代码 清单 12-17 第 12 章 \ 程 序 \ 程 序 12-5\ 虚 拟 平台 \kernel\head.S 


movgd _stack_start (Srip), Srsp /* rsp address */ 
ENTRY (_stack_start) 
.Guad init task_union + 32768 
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GDT_Table: 


在 守 十 业 100,8,0 /*10 ~ 11 TSS (jmp one segment <9>) in long-mode 
12:8-Dit S50O*y 
GDT_END : 


经 过 此 次 修改 和 调整 后 ，GDT 可 支持 约 49 个 任务 状态 段 描述 符 。 有 了 足够 的 TSS 描 述 符 ， 现 在 还 
需要 一 个 可 用 于 配置 TSS 描 述 符 的 功能 函数 ， 代 码 清 单 12-18 是 配置 函数 的 程序 实现 。 
代码 清单 12-18 ”第 12 章 \ 程 序 \ 程 序 12-5\ 虚 拟 平台 \kernel\gate.h 


inline void set tss_descriptor(unsigned int n,void * addr) 


{ 


unsigned long limit = 103; 


*(unsigned long *) (GDT_Table + n) = (limit & Oxffff) | (((unsigned long)addr & 
Oxffff) << 16) | (((unsigned long)addr >> 16 & 0xff) << 32) | ((unsigned 
long)0x89 << 40) | ((limit >> 16 & 0xf) << 48) | (((unsigned long)addr 
>> 24 & Oxff) << 56); /////89 is attripbute 

*(unsigned long *) (GDT_Table + n+ 1) = ((unsigned long)addr >> 32 & 0xffffffff) 
| 0; 


} 

关于 set_tss_descriptor 孙 数 的 代码 实现 ， 读 者 可 参照 IA-32e 模 式 的 TSS 描 述 符 位 功能 说 明 进 
行 学 习 。 

此 前 的 操作 系统 仅 有 一 个 TSS 描 述 符 ， 那 么 TSS 描 述 符 的 配置 函数 set_tss64 只 需 设置 描述 符 空 
间 TSs64_Table 即 可 , 随 着 TSS 描 述 符 数量 的 增多 ,set_tss64 函 数 就 需要 追加 一 个 参数 来 索引 各 TSS 
描述 符 空间 。 

代码 清单 12-19 为 AP 处 理 器 分 配 了 栈 空间 和 TSS 空 间 , 并 对 AP 处 理 器 的 TSS 描 述 符 及 其 段 空间 进行 
配置 。 


代码 清单 12-19 ”第 12 章 \ 程 序 \ 程 序 12-5\ 虚 拟 平台 \kernel\main.c 


void Start_Kernel (void) 


set_tss64(TSS64_ Table,_stack_ start, _stack_ start, _stack_ start, Oxffff800000007c00, 
Oxffff800000007c00, 0xffff800000007c00, Oxffff800000007c00, 0xffff80000000 7c00, 
Oxffff800000007c00, Oxffff800000007c00); 


//prepare send Start-up IPI 


_stack_start = (unsigned long)kmalloc (STACK_SIZE,0) + STACK_SIZE; 
tss = (unsigned int *)kmalloc(128,0); 
set_tss_descriptor(12,tss); 


set_tss64(tss,_stack_start,_stack_ start,_stack_start,_stack_start,_stack 
start,_stack_start,_stack_start,_stack_start,_stack_ start,_stack_start); 


icr_entry.vector = 0x20; 
icr_entry.deliver mode = ICR_ Start_up; 
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这 段 程序 先 向 BSP 处 理 器 的 描述 符 空 间 rss64_Table 配 置 各 特权 级 的 栈 顶 地 址 , 再 为 AP 处 理 器 分 
配 栈 空间 (PCB 存 储 空间 ) 并 初始 化 TSS 描 述 符 及 其 段 空间 。 为 了 在 AP 处 理 器 中 检测 异常 捕获 效果 ， 
比 处 同样 借助 除 0 方法 触发 一 个 #DE 异 常 ， 具 体 程序 实现 请 参见 代码 清单 12-20。 
代码 清单 12-20 ”第 12 章 \ 程 序 \ 程 序 12-5\ 虚 拟 平台 \kernel\SMP.c 


void Start_SMP() 


I 


load_TR(12);，; 
Ry 
hit(): 

} 


代码 清单 12-20 通 过 Load_TR 函 数 将 TSS 描 述 符 注册 到 AP 处 理 器 中 ， 再 借助 代码 x = 1/0; 触 发 #DI 
异常 ， 图 12-14 是 它 的 运行 效果 。 


| 


Bochs x86-64 emulator, http://bochs.sourceforge.net/ 


Ox00 Integrated BPIC 
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图 12-14 AP 处 理 器 的 异常 捕获 效果 


从 图 12-14 中 可 以 看 出 ，AP 处 理 器 已 经 具备 处 理 器 异常 的 捕获 能 力 ， 这 离 SMP 操 作 系 统 的 实现 又 
进 了 一 步 。 

4. 多 核 处 理 器 加 锁 

多 核 处 理 右 间 加 锁 的 目的 主要 是 为 了 防止 多 个 处 理 器 同时 操作 共享 数据 、 导 致 程序 执行 混乱 。 为 
了 研究 多 核 处 理 融 间 的 锁 机 制 ， 现 在 是 时 候 进 一 步 增加 处 理 器 的 数量 了 。 首 先 ， 调 整 Bochs 虚 拟 机 的 
配置 文件 bochsrc， 将 处 理 器 的 核心 数 增加 为 2， 即 修改 配置 参数 为 cpu: count=1:2:2。 此 时 的 虚 
拟 机 将 拥有 4 个 逻辑 处 理 单元 。 
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当 逻 辑 处 理 单元 的 数量 增加 至 4 后 ， 我 们 必须 调整 AP 处 理 器 的 引导 启动 代码 。 为 了 使 每 个 处 理 器 
都 能 拥有 独立 的 TSS 描 述 符 和 栈 空 间 , 下 面 将 广播 Start-up IPI 消 息 修改 为 逐个 AP 处 理 器 发 送 Start-up IPI 
消息 ， 程 序 实现 请 看 代码 清单 12-21。 


代码 清单 12-21 第 12 章 \ 程 序 \ 程 序 12-6\ 虚 拟 平台 \kernel\main.c 


int global_i = 0; 
void Start_Kernel (void) 


//prepare send Start-up IPI 
for (global 1 = 1;global 1 < 4;global_i++) 
{ 
_stack_start = (unsigned long)kmalloc (STACK_SIZE,0) + STACK_SIZE; 
tss = (unsigned int *)kmalloc(128,0); 
set_tss_descriptor(10 + global i * 2,tss); 
set_tss64(tss,_stack_start,_stack_ start,_stack_start,_stack_start,_stack 
start,_stack_start,_stack start,_stack start,_stack_ start,_stack_ start); 


icr_entry.vector = 0x20; 

icr_entry.deliver mode = ICR_ Start_up; 
icr_entry.dest_shorthand = ICR_No_Shorthandg; 
icr_entry.destination.x2apic destination = global i; 


wrmsr (0x830,*(unsigned long *)&icr_ entry); //Start-up IPI 
wrmsr (0x830,*(unsigned long *)&icr_ entry); //Start-up IPI 


在 这 段 代码 中 , 全 局 变量 global_i 是 多 核 处 理 器 的 共享 数据 , 目前 它 用 于 表示 目标 处 理 器 的 Local 
APIC ID 值 和 TSS 描 述 符 的 索引 值 。 

在 AP 处 理 器 的 引导 启动 期 间 ， 引 导 程 序 会 引用 全 局 变量 glopal_i 来 确定 处 理 器 使 用 的 TSS 描 述 
符 ， 引 用 过 程 请 参见 代码 清单 12-22。 


代码 清单 12-22 第 12 章 \ 程 序 \ 程 序 12-6\ 虚 拟 平台 \kernel\SMP.c 


extern int global i; | 


void Start_SMP() 


load_TR(10 + global_i * 2); 
及 入流 
} 
从 直观 上 看 , 这 两 段 程序 并 无 太 大 问题 , 但 当 系 统 运行 起 来 后 , 问题 就 暴露 出 来 了 。 请 先 看 图 12-15 
描述 的 运行 效果 ， 再 结合 实际 现象 进行 具体 分 析 。 
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图 12-15 多核 处 理 需 的 运行 效果 图 1 


从 图 12-15 中 发 现 ， 所 有 AP 处 理 器 几乎 同时 打印 出 了 日 志 信息 ， 这 些 信息 穿插 着 、 乱 序 排列 在 屏 


LA ， 


幕 上 。 与 此 同时 ，Bochs 虚 拟 机 骨 溃 ， 硬 件 重 启 。 在 Bochs 虚 拟 机 重启 前 ， 还 显示 了 下 面 这 段 日 志 信 息 : 


00098296350e[CPU1 ] LTR: doesn't point to an available TSS descriptor! 
00098296350e[CPU1 ] get_RSP_from TSS: canonical address failure 0xf000e9e6f000e987 
00098296350e[CPU1 ] get_RSP_from TSS: canonical address failure 0xf000e9e6f000e987 


经 过 分 析 后 ,我 们 猜测 : 也 许 是 BSP 处 理 带 执行 的 速度 过 快 ， 导致 全 局 变量 global_i 的 值 与 理想 
值 不 符 。 为 了 证 实 猜测 ， 特 将 start_sMP 限 数 修 改 成 代码 清单 12-23 的 样子 。 


TT 


代码 清单 12-23 ”第 12 章 \ 程 序 \ 程 序 12- 八 虚拟 平台 \kernel\SMP.c 


void Start_SMP() 

{ 
Color_printk (RED,YELLOW, "global_i:<%d>\t",global_ i); 
hit(); 

} 


这 段 验证 程序 的 运行 效果 请 参 见 医 | 12-10。 
从 图 12-16 可 知 ， 并 行 运 行 的 处 理 器 在 屏幕 上 打印 的 全 局 变量 glopbal_i 数 值 均 为 4， 而 且 Bochs 虚 
拟 机 没有 发 生 朋 演 现 象 。 如 此 简短 的 Start_smMP 函 数 在 引用 全 局 变量 global_i 时 ， 其 值 已 累加 至 4。 


1 此 可 想 而 知 ， 多 核 处 理 器 间 加 锁 是 必然 的 ,那么 下 面 就 为 多 核 处 理 器 实现 自 旋 锁 机 制 。 

Intel 处 理 器 已 经 为 我 们 提供 了 专用 的 指令 前 绥 LOcK 来 实现 处 理 器 间 的 锁 机 制 。 当 处 理 需 执行 
LOCK 指 令 前 绥 修 饰 的 汇编 指令 时 ，LOCK 指 令 前 绥 将 迫使 处 理 咒 锁 住 硬件 系统 平台 的 前 端 总 线 ， 以 阻 
止 其 他 处 理 器 访问 系统 内 存 ， 虽 然 这 种 方式 看 起 来 有 些 粗暴 ， 但 这 种 方式 能 够 简单 、 直 接 、 有 效 地 防 
止 处 理 器 竞争 共享 资源 。 


| 呈 


3 
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图 12-16 多 核 处 理 器 的 运行 效果 图 2 


LOCK 指 令 前 组 只 能 修饰 ADD、ADC、AND、BTC、BTR、BTS、CMPXCHG、CMPXCHG8B、CMPXCHG16B、 
DEC、INC、NEG、NOT、OR、SBB、SUB、XOoR、XaADD 和 XcHG 等 汇编 指令 ， 而 且 只 有 当 目 标 操作 数 是 
内 存单 元 时 ，LO 令 前 绥 才 会 有 效 。 当 上 述 指令 的 源 操 作 数 会 操作 内 存 时 ，LOcK 指 令 前 缀 可 能 会 
触发 #UD 异 常 ; 人 。 jLocK 指 令 前 级 修饰 其 他 指令 同样 会 触发 #UD 异 常 。 

代码 清单 12-24 定 义 了 自 旋 锁 变 量 及 其 初始 化 函数 ， 从 它们 的 定义 中 可 以 看 出 ， 自 旋 锁 变 量 与 普通 
的 变量 不 无 两 样 ， 而 且 初 始 化 过 程 也 非常 简单 。 


只 


I 


代码 清单 12-24 ”第 12 章 \ 程 序 \ 程 序 12-&\ 虚 拟 平台 \kernel\spinlock.h 
typedef struct 


{ 


volatile unsigned long lock; relvunmnlock, QLock 
}spinlock_T; 


inline void spin init(spinlock_T * lock) 
4 

lock->lock = 1; 
} 


对 于 自 旋 锁 机 制 而 言 ， 如 何 “原子 ”的 操作 自 旋 锁 变量 才 是 它 的 难点 ， 这 当然 是 通过 汇编 指令 以 
及 LOCK 指 令 前 组 来 实现 的 ， 代 码 清单 12-25 是 自 旋 锁 加 锁 过 程 的 程序 。 


代码 清单 12-25 ”第 12 章 \ 程 序 \ 程 序 12-&\ 虚 拟 平台 \kernel\spinlock.h 


inline void spin lock(spinlock T * lock) 


{ 


asm _ Volatile _ ( Le NNCT 
"lock decgq $0 \n\t" 
TS 莹 二 NE” 
2 NE 
"pause NTENE 
cmpq SO $0 \n\t 
"jle 2 NENEY 
"jmp TB NILNC 
3 NXE 


:"=m" (lock->lock) 


a 
jj 

中 

在 这 段 内 和 藤 汇编 程序 中 ， 首 先 通过 LocK 指 令 前 绥 锁 住 硬 件 系统 平台 的 前 端 总 线 ， 并 使 用 DEc 指 令 
自 减 自 旋 锁 变量 值 。 如 果 执 行 结果 是 非 负数 ， 处 理 器 将 跳 转 至 标识 符 3 处 执行 ; 否则 执行 PAUSE 指 令 ， 
并 继续 把 自 旋 锁 变量 值 与 0 比较 ， 如 此 往复 ， 直 至 自 旋 锁 变 量 值 大 于 0 时 ， 处 理 器 将 重新 进入 标识 符 1 
处 ， 再 次 尝试 加 锁 。 

此 处 执行 的 汇编 指令 PAUSE 是 一 个 空转 指令 ， 它 的 功能 与 NOP 指令 相似 ， 只 不 过 PAUSE 指 令 的 功 
耗 更 低 。 值 得 注意 的 是 ,在 没有 引入 PaAUSE 指 令 前 ， 程 序 通常 使 用 汇编 语句 rep;nop 代 蔡 ， 它 的 功能 
不 是 多 次 循环 ， 而 是 执行 一 次 NOP 指令 (也许 功 耗 相 对 较 低 )。 现 在 ， 大 部 分 编译 器 已 将 汇编 语句 
REP; NOP 编 译 成 PAUSE 指 令 。 

自 旋 锁 的 解锁 过 程 相对 于 加 锁 过 程 简 单 许 多 。 在 解锁 过 程 中 ， 无 需 锁 住 硬件 系统 平台 的 前 端 总 
线 ， 只 要 向 自 旋 锁 变 量 赋值 1 即 可 ， 其 程序 实现 如 代码 清单 12-26 所 示 。 


代码 清单 12-26 ”第 12 章 \ 程 序 \ 程 序 12-8&\ 虚 拟 平台 \kernel\spinlock.h 


inline void spin unlock(spinlock_T * lock) 


{ 


_asm _ Volatile _ ( "movg Sl; $0 WiNt” 
:"=m" (lock->lock) 


: "memory" 
)3 
} 


为 了 使 目前 的 系统 能 够 正常 运行 ， 现 为 其 定义 两 个 自 旋 锁 变 量 sMP_lcok 和 printk_lock， 它 们 
分 别 位 于 SMPh 头 文件 和 struct position 结 构 体 内 。 其 中 的 sMP_lcok 自 旋 锁 变 量 用 于 防止 多 核 处 
理 器 在 初始 化 系统 环境 时 操作 共享 资源 , 而 printk_lock 自 旋 锁 变量 则 用 于 防止 多 核 处 理 器 在 屏幕 中 
乱 序 插入 日 志 信 息 。 

printk_lock 自 旋 锁 变 量 的 应 用 场景 位 于 color_printk 函 数 中 ， 在 操作 struct position 结 
构 体 变量 Pos 时 使 用 ， 其 调用 过 程 如 代码 清单 12-27 所 示 。 


代码 清单 12-27 第 12 章 \ 程 序 \ 程 序 12-8&\ 虚 拟 平台 \kernel\printk.c 


int color printk(unsigned int FRcolor,unsigned int BKcolor,const char * fmt,...) 
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spin_lock(&Pos.printk_ lock); 


for(count = 0;count < i;count++) 


spin unlock(&Pos.printk_lock); 
return i; 


} 

SMP_lcok 自 旋 锁 变量 的 应 用 场景 是 在 操作 系统 初始 化 AP 处 理 器 的 过 程 中 ， 当 操作 系统 为 AP 处 理 
器 创建 TSS 描 述 符 和 栈 空 间 之 前 加 锁 ， 并 在 AP 处 理 器 执行 完 系 统 初始 化 函数 后 解锁 ， 代 码 清 单 12-28 
和 代码 清单 12-29 实 现 了 AP 处 理 器 的 加 锁 与 解锁 过 程 。 


代码 清单 12-28 ”第 12 章 \ 程 序 \ 程 序 12-&\ 虚 拟 平台 \kernel\main.c 


void Start_Kernel (void) 


SMP_init(); 
//prepare send INIT IPI 


spin_ init(&Pos.printk_ lock); 
load_TR(10); 


for (global 1 = 1;global 1 < 4;global_i++) 
{ 
spin_lock(&SMP_ lock); 


代码 清单 12-29 ”第 12 章 \ 程 序 \ 程 序 12-&\ 虚 拟 平台 \kernel\SMP.c 
void SMP_init() 


spin_ init(&SMP_ lock); 
} 
void Start_SMP() 


je + (global_i -1)* 2); 
spin unlock(&SMP_ lock); 
hilt(); 
} 
以 上 两 段 代码 中 的 SMP_1cok 自 旋 锁 变量 组 成 了 一 对 加 锁 与 解锁 区 间 ， 这 个 区 间 横 跨 了 两 个 逻辑 
处 理 单元 ， 即 在 操作 系统 为 AP 处 理 器 准备 运行 环境 时 加 锁 ， 在 AP 处 理 器 融入 到 操作 系统 后 解锁 。 随 
后 ,操作 系统 再 为 下 一 个 竺 初始 化 的 AP 处 理 器 服务 。 图 12-17 是 本 系统 引入 自 旋 锁 功 能 后 的 运行 效果 。 


Bochs x86-64 emulator, http://bochs.sourceforge.net/ 


[ET 


图 12-17 多核 处 理 需 的 运行 效果 图 3 


尽管 本 系统 在 限定 两 处 加 锁 区 间 后 ， 暂 且 能 够 稳定 运行 ， 但 操作 系统 的 加 锁 区 间 不 仅 只 有 本 文 提 


及 的 两 处 ， 随 着 多 核 操作 系统 功能 的 逐步 完善 ， 更 多 资源 竞争 问题 也 会 相继 浮 出 水 函 
5. 多 核 的 中 断 处 理 


[e) 


经 过 前 几 节 内 容 的 洗礼 ， 现 在 将 为 多 核 处 理 器 实现 中 断 处 理 功 能 。 其 实 ， 中 断 处 理 功 能 目前 已 基 
本 实现 ， 只 不 过 在 AP 处 理 器 融和 多核 操 作 系统 后 ， 还 未 曾 处 理 过 IO APIC 或 其 他 Local APIC 投 递 来 的 


二 


中 断 消 息 。 为 了 加 深 对 多 核 处 理 器 的 理解 和 记忆 ， 本 节 将 在 原 有 中 断 向 量 表 的 基础 上 ， 新 增多 核 处 理 


需 间 的 IPI 消 息 处 理 功能 。 


IPI 消 息 的 处 理 功 能 与 其 他 中 断 请 求 /消息 的 处 理 功能 相似 ， 都 需要 规划 中 断 向 量 号 、 指 派 中 断 处 理 
程序 以 及 栈 空间 等 信息 。 我 们 在 APIC.h 文 件 中 已 规划 出 各 类 中 断 请 求 /消息 的 向 量 号 ，IPI 消 息 的 中 断 向 
量 号 从 200 ( 0xc8 ) 开始 。 中 断 处 理 程 序 的 入口 部 分 依然 沿用 宏 函 数 Buildq_IRo 构 建 ， 代 码 清单 12-30 负 


Wm 


责 创建 I[PI 消 息 处 理 程序 的 入 口 代码 。 


代码 清单 12-30 ”第 12 章 \ 程 序 \ 程 序 12-9\ 虚 拟 平台 \kernel\interrupt.c 


Build_IRO(O0Oxc8 
Build_IRQO(Oxc9 
Build_IRO(Oxca 
Build_IRQO(O0xcb 
Build_IRQO(Oxcc 
Builgd_IRQO(Oxcd 
Build_IRO(Oxce 
Build_IRO(Oxcf 
Build_IRQO(0Oxd0 
Build_IRO(Oxdl 


) 
) 
) 
) 
) 
) 
) 
) 
) 
) 
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void (* SMP_ interrupt[10]) (void) = 
{ 
IRQOxc8_interrup 
IRQOxc9_interrup 
IRQOxca_interrup 
IRQOxcb_interrup 
IRQOxcc_interrup 
IRQOxcd_interrup 
IRQOxce_interrup 
IRQOxcf_interrup 
IRQOxd0_interrup 
IRQOxd1_interrup 


下 直下 下 tt set et et 


上 
这 段 代 码 定义 了 一 个 拥有 10 个 IPI 消 息 处 理 程 序 ( 入口 代 码 ) 的 函数 指针 数组 ， 随 即 在 Interrupt.h 
头 文件 中 声明 它 ， 并 定义 了 与 之 相对 应 的 中 断 处 理 过 程 结构 体 数 组 ， 详 细 结 构 体 数组 定义 见 代 码 清 
单 12-32 。 


代码 清单 12-31 第 12 章 \ 程 序 \ 程 序 12-9\ 虚 拟 平台 \kernel\interrupt.h 


irg_ desc_T SMP_IPI desc[10] = {0}; 
extern void (* SMP_ interrupt[10]) (void); 


现在 ，IPI 消 息 处 理 程序 的 相关 结构 已 经 定义 完毕 ， 下 面 将 为 IPI 中 断 向 量 号 绑 定 处 理 程序 的 和 人口 
代码 ， 其 绑 定 过 程 请 参见 代码 清单 12-32。 


代码 清单 12-32 ”第 12 章 \ 程 序 \ 程 序 12-%\ 虚 拟 平台 \kernelNSMPc 


voiqd SMP_init() 


for(i = 200;i < 210;i++) 


set_intr gate(i ,， 2 ,， SMP_ interrupt[i - 200]); 
} 
memset (SMP_IPI_desc,0,sizeof (irg desc_ T) * 10); 
} 


鉴于 中 断 消 息 与 II 消息 都 会 经 由 中 断 处 理 函 数 qo_IRo 进 行 处 理 , 那么 就 有 必要 在 do_IRO 函 数 中 
对 消息 类 型 进行 区 分 。 这 里 以 中 断 向 量 号 0x80 为 界限 ，0x80 以 下 的 中 断 请 求 属于 8259A、LIO APIC 等 
外 部 中 断 控制 器 ，0x80 以 上 的 中 断 请 求 则 属于 处 理 器 内 部 的 Local APIC, 代码 清单 12-33 实 现 了 这 个 区 


代码 清单 12-33 ”第 12 章 \ 程 序 \ 程 序 12-%\ 虚 拟 平台 \kernel\APIC.c 


void do_IRQO(struct pt_regs * regs,unsigned long nr) //regs:rsp,nr 


{ 


switch(nr & 0x80) 
{ 
case 0x00: 
{ 
irqg desc _ T * irqgq = &interrupt_desc[lnr - 32]; 
if(irq->handler != NULL) 


462 第 12 章 进程 管理 


irq->handler (nr,irgq->parameter,regs); 
if(irgq->controller != NULL && irgq->controller->ack != NULL) 
irq->controller->ack (nr); 
} 
break; 
case 0x80: 
color_printk (RED,BLACK, "SMP IPI :%$d\n",nr); 
Local_APIC edge_level_ ack (nr); 


break; 
default: 

color_printk (RED,BLACK, "do_IRQO receive:%d\n",nr); 
break; 


} 
目前 尚 无 PPI 消 息 处 理 函 数 注册 到 系统 中 ， 但 为 了 验证 程序 执行 效果 ， 此 处 暂且 将 IPI 消 息 的 中 断 向 
量 号 打印 出 来 。 程 序 中 的 Local_APIC_eaqge_level_ack 函 数 用 于 向 Local APIC 的 EOI 寄 存 器 发 送 EOI 消 
息 ， 以 通知 Local APIC 当 前 请 求 已 经 处 理 完毕 ， 此 函数 的 实现 过 程 与 TOAPIC_edge_ack 子 数 相 同 。 
至 此 ，IPI 消 息 的 处 理 功能 已 经 实现 ， 只 需 借助 ICR 向 AP 处 理 器 发 送 IPI 消 息 便 可 验证 处 理 效 果 。 
代码 清单 12-34 是 IPI 消 息 的 发 送 方程 序 实现 ， 代 码 清 单 12-35 是 IPI 消 息 的 接收 方程 序 实现 。 


代码 清单 12-34 第 12 章 \ 程 序 \ 程 序 12-9\ 虚 拟 平台 \kernel\main.c 


void Start_Kernel (voidi) 


icr_entry.vector = 0xc8; 
icr_entry.destination.x2apic destination = 1; 
icr_entry.deliver mode = APIC_ICR IOAPIC Fixed; 
wrmsr (0x830,*(unsigned long *)&icr_ entry); 


icr_entry.vector = 0xc9; 
wrmsr (0x830,*(unsigned long *)&icr entry); 


while(1) 


} 


代码 清单 12-35 ”第 12 章 \ 程 序 \ 程 序 12-9\ 虚 拟 平台 \kernel\SMP.c 
void Start_SMP() 


while(1) 
hlit (); 
} 


值得 注意 的 是 ， 当 AP 处 理 需 使 能 中 断后 ， 处 理 器 会 借助 HLT 汇 编 指 令 〈 封装 于 h1it 函 数 内 ) 进入 
中 止 状态 。 可 是 在 处 理 器 收 到 中 断 消 息 〈《 包 括 中 断 和 蜡 常 ) 后 ， 它 将 被 唤醒 并 对 中 断 请 求 进行 处 理 ， 
随 着 中 断 请 求 处 理 结束 ， 处 理 器 不 会 再 次 进入 中 止 状态 ， 而 是 执行 HLT 之 后 的 指令 。 所 以 ， 此 处 使 用 
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while 循 环 让 处 理 融 始终 处 了 


中 目 状 态 。 图 12-18 描 绘 了 多 核 处 理 带 间 的 IPI 消 息 处 理 效果 。 
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图 12-18 ”多核 处 理 器 间 的 IPI 消 息 处 理 效果 图 1 


后 
Ry 


截至 此 刻 ， 多 核 操作 系统 的 基础 功能 已 经 实现 ， 如 果 读 者 将 本 节 实 现 的 程序 移植 (不 要 忘记 调整 
显示 分 辩 率 等 内 核 参数 ) 到 物理 平台 中 ， 它 是 可 以 正常 运行 的 ， 其 运行 效果 请 参见 图 12-19。 
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图 12-19 多核 处 理 器 间 的 IPI 消 息 处 理 效 果 图 2 
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12.3 ”进程 调度 器 


对 于 一 个 多 核 操作 系统 而 言 ， 其 拥有 的 处 理 圳 数量 普遍 会 比 待 执行 任务 低 一 个 甚至 多 个 数量 级 ， 
以 至 于 任务 的 并 行 能 力 十 分 有 限 。 为 了 让 更 多 任务 同时 执行 或 者 看 似 同时 执行 ， 就 必须 提高 系统 的 并 
发 能 力 。 时 间 片 这 一 概念 是 从 分 时 操作 系统 开始 引入 ， 它 描述 了 任务 每 次 可 以 执行 的 时 间 长 度 ， 通 常 
以 毫秒 作为 计量 单位 。 

进程 调度 器 主要 负责 为 进程 分 配 时 间 片 并 规划 进程 的 执行 顺序 ， 当 处 理 咒 进入 空闲 状态 或 时 间 片 
到 期 时 ， 进 程 调度 器 会 从 等 待 就 绪 队 列 中 取出 优先 级 最 高 的 进程 ， 将 其 迁移 至 处 理 器 内 运行 。 我 们 根 
据 进程 消耗 时 间 片 的 方式 ， 可 将 进程 分 为 TO 消耗 型 和 处 理 器 消耗 型 ， 以 下 是 这 两 种 进程 类 型 的 特点 。 
D MO 消耗 型 。 这 类 进程 会 频繁 收发 IO 消息， 以 至 于 进程 的 大 部 分 运行 时 间 都 处 于 等 待 IO 消息 的 
阻塞 状态 ， 时 间 片 消耗 相对 较 慢 。 
口 处 理 器 消耗 型 。 此 类 进程 没有 多 少 IO 消 息 需要 收发 ， 它 几乎 把 时 间 片 都 消耗 在 程序 的 执 

行 上 。 

这 种 归 类 方式 可 能 太 过 绝对 化 ,也 许 一 个 进程 在 某 段 时 间 里 是 IO 消耗 型 ， 而 在 另 一 段 时 间 里 是 处 
理 器 消耗 型 。 虽 然 缩短 进程 的 时 间 片 可 大 大 提高 操作 系统 的 实时 性 ， 但 频繁 的 时 钟 中 断 将 使 处 理 器 在 
进程 切换 ( 保存/ 还原 进程 的 执行 现场 ) 以 及 调度 处 理 上 浪费 大 量 性 能 ， 这 将 给 处 理 带 消耗 型 进程 带 来 
不 利 影响 。 

随 着 操作 系统 功能 的 不 断 增多 ,进程 执行 状态 的 种 类 也 被 划分 得 更 细 , 图 12-20 示 意 了 进程 各 执行 
状态 间 的 关系 。 


中 断 /异常 /系统 调 


可 中 断 状态 


暂停 状态 


图 12-20 ”进程 执行 状态 间 的 关系 示意 图 
图 12-20 描 述 了 一 个 进程 在 执行 期 间 可 能 出 现 的 状态 ， 这 些 执行 状态 的 具体 解释 如 下 。 
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口 运行 状态 。 如 果 一 个 进程 正在 处 理 器 中 执行 ,那么 此 进程 处 于 运行 状态 。 如 果 进 程 已 进入 运行 状 


态 但 尚未 迁移 至 处 理 器 中 执行 ， 则 此 进程 处 于 准备 就 绪 状 态 ， 随 时 都 有 可 能 被 调度 器 迁移 至 处 理 


器 中 执行 。 进 程 调度 器 可 以 决策 出 哪些 处 于 准备 就 绪 状 态 的 进程 应 该 迁移 至 处 理 器 中 执行 。 


进程 销毁 。 
口 暂停 状态 。 和 暂停 状态 主要 使 用 在 进程 调试 过 程 


的 进程 。 


口 僵 死 状态 。 如 果 进 程 已 经 执行 结束 但 相关 资源 还 未 被 回收 ,那么 进程 将 进入 僵 死 状态 ， 等 待 父 


口 可 中 断 状态 。 当 进程 等 待 蘑 种 条 件 满足 时 会 进入 此 状态 。 一 旦 条 件 满足 ， 系 统 立 即将 进程 改 回 
运行 状态 。 不 论 等 待 条 件 是 否 满足 ， 信 和 号 均 可 提前 唤醒 处 于 可 中 断 状 态 的 进程 。 
口 不 可 中 断 状 态 。 此 状态 与 可 中 断 状 态 的 作用 相似 ， 但 信号 无 法 提前 唤醒 处 于 不 可 中 断 状 态 


以 上 概念 是 研究 进程 调度 器 必 备 的 知识 ， 将 这 些 知 识 与 调度 算法 相 结合 就 可 实现 进程 调度 器 。 虽 
然 这 件 事 说 起 来 容易 ， 可 进入 实践 阶段 却 明 显 变 得 举步维艰 。 我 想 ， 这 主要 是 源 于 大 部 分 读者 对 进程 


调度 器 的 理解 仍然 处 于 理论 概念 阶段 ， 真 正 动手 实现 过 或 设计 过 的 人 却 窒 窒 无几， 不 过 幸好 有 开源 的 


Linux 内 核 可 供 参考 学 习 。 那 么 下 面 就 从 Linux 中 找寻 设计 灵感 来 实现 一 个 简单 的 进程 


12.3.1 Linux 进程 调度 器 简介 


调度 器 。 


对 于 Unix 操 作 系 统 来 说 ， 它 的 调度 策略 倾向 于 1/O 消 耗 型 进程 。 而 Linux 操 作 系 统 为 了 保证 交互 式 


进程 的 响应 速度 ， 其 在 进程 调度 策略 上 比 Unix 操 作 系 统 更 倾向 于 1/O 消 耗 型 进程 。 
目前 的 Linux 操 作 系 统 拥 有 两 种 调度 策略 ， 一 种 为 实时 调度 策略 ， 另 一 种 为 普通 
是 这 两 种 调度 策略 的 特点 。 


调度 策略 。 以 下 


口 实时 调度 策略 。 这 种 策略 负责 管理 系统 内 的 实时 进程 ， 实 时 进程 不 存在 时 间 片 的 概念 ， 除 非 实 
时 进程 主动 放弃 执行 权 ， 否则 它 将 一 直 执 行 下 去 。 实 时 调度 策略 几乎 不 涉及 调度 算法 ， 当 有 实 
时 进程 处 于 准备 就 绪 状 态 时 , 操作 系统 马上 将 其 迁移 至 处 理 器 中 执行 ， 当 系统 中 存在 多 个 处 于 


准备 就 绪 状态 的 实时 进程 时 ， 它 们 将 在 处 理 器 中 轮流 执行 。 


口 普通 调度 策略 。 通 常情 况 下 ,操作 系统 内 只 有 为 数 不 多 的 儿 个 进程 属于 实时 进程 ， 而 绝 大 多 数 
进程 属于 普通 进程 。 进 程 调度 器 依据 任务 的 紧迫 性 把 普通 进程 划分 成 不 同 优先 级 ,这 些 普通 进 
程 按时 间 片 轮流 在 处 理 器 中 执行 。 为 了 缩短 高 优先 级 进程 在 操作 系统 中 的 响应 时 间 ,， 进 程 管理 


单元 引入 了 抢占 功能 。 
抢占 功能 可 使 更 高 优先 级 的 进程 在 当前 进程 的 时 间 片 耗 尽 前 ， 提 前 剥夺 其 处 理 
证 更 高 优先 级 的 进程 尽早 执行 。 抢 占 功能 可 进一步 分 为 用 户 抢占 与 内 核 抢占 ， 


器 使 用 权 ， 从 而 
这 两 种 抢占 可 在 


中 断 、 异 常 、 系 统 调 用 等 处 理 过 程 返回 时 ， 或 者 在 内 核 可 以 安全 调度 的 地 方 执行 抢占 检测 。 如 


果 抢 占 检 测 点 最 终 返 回 至 用 户 层 ( 应 用 层 )， 则 它 被 称 为 用 户 抢占 ; 如 果 抢 占 检测 点 最 终 返 


至 内 核 层 ， 那 么 它 被 称 为 内 核 抢占 。 


加 


与 此 同时 ，Linux 内 核 还 将 进程 的 时 间 片 缩短 至 1 ms， 这 使 得 操作 系统 的 实时 反应 速度 可 保 二 


民 


在 1 ms 以 内 。 虽 然 此 等 实时 性 是 以 牺牲 性 能 为 代价 才 换 来 的 ,但 对 于 一 个 分 时 操作 系统 而 言 ， 


这 样 的 实时 性 已 经 比较 令 人 满意 了 。 


Linux 操 作 系统 为 了 使 多 核 处 理 器 各 逻辑 处 理 单元 的 工作 量 趋 近 于 负载 均衡 ， 可 能 会 将 某 些 进 
程 从 一 个 繁忙 的 处 理 器 任务 队列 中 迁移 至 男 一 个 相对 空闲 的 处 理 器 任务 队列 , 如 果 这 两 个 逻辑 
处 理 单元 位 于 板 上 的 同一 个 多 核 处 理 器 中 , 那么 进程 的 迁移 过 程 很 快 就 能 完成 。 如 果 这 两 个 逻 
辑 处 理 单元 位 于 板 间 的 不 同 处理 器 中 , 那么 进程 的 迁移 过 程 将 会 消耗 很 多 时 间 和 资源 。 为 了 减 
少 此 类 损耗 ，Linux 操 作 系统 为 进程 引入 CPU 亲 和 性 这 一 概念 ， 这 个 概念 描述 了 进程 与 各 个 处 
理 器 的 亲密 度 。 用 户 可 通过 系统 调用 API 设 置 进程 与 各 个 处 理 器 的 亲密 度 ， 当 发 生 进 程 迁 移 
时 ,调度 器 会 尽 可 能 将 进程 迁移 至 与 其 关系 比较 密切 的 处 理 器 任务 队列 中 。 

普通 进程 的 调度 算法 种 类 诸多 ,这 也 是 Linux 重 点 改进 和 完善 的 地 方 之 一 。 自 Linux 内 核 2.6 版 本 以 
来 ，Linux 内 核 经 历 过 O(1) 调 度 算法 、SD/RSDL 楼 梯 调 度 算法 等 ,最终 采用 了 CFS 完 全 公平 调度 算法 。 
下 面 就 这 几 种 进程 调度 算法 的 实现 原理 进行 简要 讲解 ， 以 帮助 我 们 构建 本 系统 的 调度 算法 。 

@ O(1) 进 程 调度 算法 

O(1) 调 度 算法 重点 强调 任务 切换 在 一 个 固定 时 间 内 完成 。 这 里 的 符号 0 通常 代表 算法 的 时 间 复 杂 
度 ，(1) 表 示 算 法 的 时 间 复 杂 度 为 1， 即 只 需 一 次 迭代 便 可 搜索 到 目标 进程 。 为 了 将 调度 的 时 间 复 杂 度 
降低 至 1，O(1) 调 度 算 法 创建 了 两 个 相同 的 执行 队列 一 一 一 个 是 过 期 队列 ， 另 一 个 是 活动 队列 ， 每 个 
队列 再 根据 任务 的 紧迫 性 分 为 多 个 优先 级 子 队列 。 处 理 器 从 活动 队列 中 取出 一 个 优先 级 最 高 的 任务 进 
行 处 理 ， 并 在 处 理 结束 后 将 其 转移 至 过 期 队列 。 当 活动 队列 为 空 时 ， 进 程 调度 器 再 将 过 期 队列 与 活动 
队列 的 角色 互 换 ， 从 新 的 活动 队列 中 取出 优先 级 最 高 的 任务 继续 执行 。 图 12-21 大 致 描绘 了 O(1) 进 程 调 
度 算法 的 整体 结构 。 


过 期 队列 活动 队列 


图 12-21 0(1) 进 程 调度 算法 结构 示意 图 
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尽管 0(1) 调 度 算法 在 进程 切换 速度 方面 有 着 明显 优势 ， 但 它 在 动态 调整 (计算 ) 进程 优先 级 方面 


却 非常 消耗 时 间 。 
@ SD 与 RSDL 楼 梯 进 程 调度 算法 


为 了 避免 0(1) 调 度 算法 的 缺陷 ，SD 楼 梯 调 度 算法 在 O(1) 调 度 算法 的 基础 上 , 将 原 有 的 进程 时 间 片 


拆 分 为 细 粒 度 时 间 片 和 粗 粒 度 时 间 片 ， 并 废除 过 期 队列 。 细 粒度 时 间 片 用 于 描述 进程 在 每 个 优先 级 子 


队列 中 使 用 的 时 间 片 ， 当 一 个 任务 执行 完 当 前 


优先 级 子 队 丈 


> 


1， 以 此 类 推 呈 现 出 楼 梯 状 。 当 所 有 任务 的 时 间 片 都 消耗 列 尽 后 ， 进 程 优 先 级 队列 将 重 


优先 级 子 队 列 的 时 间 片 后 ， 这 个 任务 将 迁移 至 低 一 级 的 


置 成 最 开始 的 优先 级 分 布 状态 。 粗 粒度 时 间 片 


个 任务 从 初始 优先 级 迁移 至 最 低 优先 级 可 消 


] 于 描述 


耗 的 总 时 间 片 。SD 楼 梯 调度 算法 的 整体 结构 如 图 12-22 所 示 。 


优先 级 队列 
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图 12-22 ”SD 楼 梯 进 程 调度 算法 结构 示意 图 


对 于 长 期 处 于 挂 起 状态 的 IO 消耗 型 进程 而 言 ， 它 的 时 间 片 消耗 非常 缓慢 ， 纵 使 进程 历经 几 次 “ 降 
级 ”迁移 后 ， 其 优先 级 仍 相 对 较 高 ， 从 而 使 得 IO 消耗 型 进程 得 到 优先 执行 ;而 处 理 器 消耗 型 进程 的 时 
间 片 消耗 得 非常 快 ， 每 当 它 们 消耗 完 所 有 时 间 片 ， 就 必须 等 到 进程 优先 级 队列 重 置 后 才能 从 调度 器 分 
配 出 新 的 时 间 片 ， 这 势必 将 导致 处 理 絮 消耗 型 进程 在 一 个 不 确定 的 时 间 里 长 期 处 于 饥饿 状态 。 

RSDL 调 度 算法 (The Rotating Staircase Deadline Schedule ) 作为 SD 楼 梯 调 度 算法 的 改进 版 ， 暂 时 
弥补 了 上 述 不 足 。RSDL 调 度 算法 为 进程 活动 队列 的 每 个 优先 级 子 队 列 限定 了 最 长 可 运行 时 间 ， 只 要 
优先 级 子 队 列 的 累积 运行 时 间 超 过 阔 值 ， 调 度 器 便 会 对 当前 优先 级 子 队列 里 的 所 有 进程 做 “降级 ”处 
理 。 这 样 一 来 ， 进 程 调度 器 就 可 预测 处 理 器 消耗 型 进程 的 等 待 时 间 。 


@ CFS 调 度 算法 


尽管 RSDL 调 度 算法 可 以 明显 缓解 处 理 咒 消耗 型 进程 处 于 饥饿 状态 的 时 间 , 但 它 与 CFES 调 度 算法 相 


比 还 是 有 一 定 差距 。 


CFS ( Completely Fair Schedule ， 完 全 公平 进程 ) 调度 算法 弱化 了 进程 优先 级 、 进 程 类 型 等 概念 在 
调度 决策 中 的 地 位 。 为 了 尽量 保证 所 有 进程 都 能 公平 地 使 用 处 理 器 的 时 间 片 ，CFS 调 度 算法 引入 了 虚 


拟 运 行 时 间 来 抽象 进程 的 运行 时 间 ， 虚 拟 运 行 时 间 会 参考 进程 的 优先 级 等 因素 为 进程 设置 不 同 的 时 间 


增长 比例 。 与 此 同时 ，CFS 调 度 算法 还 将 原 有 的 数组 任务 队列 改 为 红 黑 树 (RB-Tree ) 任务 队列 。 红 黑 


全 
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树 是 一 颗 相 对 平衡 二 又 树 ， 它 的 时 间 复 杂 度 为 O(log N)， 使 用 红 黑 树 来 管理 任务 队列 可 在 不 失 检索 效 


率 的 同时 ， 当 


kK 顾 红 黑 树 节 点 维护 的 时 间 损 耗 。CFS 调 度 算法 的 整体 结构 如 图 12-23 所 示 。 


。 换 入 
调度 器 (Schedule) | 


二 
| 
| 
| 
| 
| 
| 
| 
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| 
| 
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CFS 调 度 算法 


虚拟 运行 时 间 


i a et a da a Tb Ad do a Ra Sa Tt Op de te ep 


图 12-23 ”CFS 调 度 算法 结构 示意 图 


图 12-23 中 的 虚拟 运行 时 间 将 作为 红 黑 树 的 关键 值 , 保存 于 红 黑 树 的 每 个 节点 和 叶子 中 。 虚 拟 运 行 


@ 红色 节点 
@ 黑色 节点 


时 间 的 最 小 值 保存 在 红 黑 树 的 最 左 侧 ， 调 度 器 每 次 从 红 黑 树 中 取出 虚拟 运行 时 间 最 小 的 任务 去 调度 执 
行 。 如 果 从 处 理 器 换 出 的 任务 依然 处 于 准备 就 绪 状 态 ， 那 么 调度 器 会 再 次 将 其 插入 到 红 黑 树 中 ， 进 程 


的 虚拟 运行 时 间 越 大 ， 作 


12.3.2 


PIT ( Programable Interval Timer， 可 编 


墙 上 时 钟 与 定时 器 


不 论 本 系统 采用 何 种 进程 调度 算法 ,它们 都 是 基于 时 间 片 实现 的 。 为 此 ， 只 有 在 驱动 定时 器 并 获 
取 实 时 时 间 后 ,我们 才能 实现 进程 调 
由 于 x86 物 理 平台 是 向 下 兼容 的 ， 


FE 务 就 越 靠 近 红 黑 树 的 最 


度 算法 。 


右 侧 。 


平台 通常 会 支持 RTC ( Real-Time Clock ， 实 时 时 钟 )、 


这 使 得 物 天 


程 计数 /定时 器 )、HPET ( High Precision Event Timer， 高 精度 消 
息 定时 器 ) 以 及 Local APIC 定 时 器 ( Timer ) 等 几 种 与 时 间 有 关 的 硬件 设备 ， 它 们 的 作用 分 别 如 下 。 


口 RTC。RTC 通 常用 于 记录 真实 世界 里 的 时 间 ， 其 数据 通常 会 保存 在 CMOS 存 储 区 中 。CMOS 存 
储 器 是 一 个 位 数 极 少 的 低 电 压 静 态 内 存 芯 片 ,通常 情况 下 TC 和 CMOS 都 配 有 钮 扣 电池 提供 外 
部 供电 ， 以 防止 设备 掉 电 造成 时 间 丢 失 。 
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口 Intel 8253/8254 PIT。PIT 是 一 个 可 编程 的 计数 /定时 芯片 ， 它 的 时 间 精 度 范围 为 100 ns~500 ns。 

口 HPET。HPET 是 一 个 高 精度 的 定时 设备 ， 它 的 时 间 精 度 在 69 ns 左右 ， 这 个 精度 值 要 比 PIT 

高 很 多 。 

口 Local APIC 定 时 器 。 这 个 定时 器 位 于 每 个 逻辑 处 理 单元 的 Local APIC 中 , 它 的 时 间 精 度 取决 于 
处 理 器 的 总 线 时 钟 或 核心 晶振 的 时 钟 频 率 ， 唱 振 每 产生 一 次 震荡 ， 定 时 央 就 计数 一 次 。 

考虑 到 实现 的 复杂 度 和 定时 精确 度 ， 本 系统 将 通过 RTC 设 备 来 取得 真实 时 间 ， 再 使 用 HPET 作 为 
系统 定时 顺 。 

1. 墙 上 时 钟 

RTC 时 钟 通常 被 称 为 墙 上 时 钟 ， 它 的 时 间 数 据 保存 在 CMOS 存 储 器 中 ， 通 常情 况 下 设备 平台 会 备 
有 外 部 供电 以 防止 断 电 导致 时 间 丢 失 。 因 此 ， 为 了 取得 RTC 时 间 ， 操 作 系统 就 必须 对 CMOS 存 储 器 
的 内 存单 元 进行 访问 。 

由 于 CMOS 存 储 器 的 地 址 在 物理 内 存 地 址 之 外 ， 因 此 处 理 器 不 能 像 访问 内 存 地 址 一 样 访问 CMOS 
存储 器 ， 必 须 借 助 O 端 口 0x70 和 0x71 对 其 进行 访问 。 其 中 的 IO 端口 0x70 用 于 索引 RTC 寄 存 器 ， 而 IO 
端口 0x71 则 用 于 读 写 RTC 寄 存 器 值 。RTC 采 用 8421 编 码 方式 的 BCD 码 来 保存 时 间 数 据 ， 表 12-6 描 述 了 
部 分 RITC 寄 存 器 在 CMOS 存 储 器 中 的 索引 地 址 和 功能 。 


表 12-6 RTC 各 寄存 器 的 功能 说 明 表 


索引 值 功能 描述 取 值 范围 

0x00 秒 0~59 

0x02 分 钟 0~59 

0x04 小 时 12H: 1~12, 24H: 0~23 
0x06 星期 1~7 

0x07 日 1~31 

0x08 月 is1 

0x09 年 0~99 

0x32 世纪 0~99 


注 : 某 些 物理 平台 的 RTC 设 备 无 法 查询 出 时 间 。 


在 掌握 上 述 知 识 后 ， 下 面 就 来 编写 程序 获取 RTC 时 间 。 此 处 ， 


我 们 使 用 结构 体 struct time 来 保 让 


存 RTC 时 间 ， 代 码 清单 12-36 是 其 完整 定义 。 


代码 清单 12-36 第 12 章 \ 程 序 \ 程 序 12-10\ 物 理 平台 \kernel\time.h 


struct time 


{ 


int secongd; //00 
int minute; //02 
int hour; //04 
int day; //07 
int month; //08 
int year; //09+32 
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结构 体 struct time 可 保存 年 、 月 、 日 、 时 、 分 、 秒 等 时 间 值 ， 其 中 的 year 成 员 变 量 是 由 0x09 


和 0x32 两 个 寄存 器 值 组 成 。 
代码 清单 12-37 中 的 函数 get 


_cmos_time 用 于 读 取 RTC 时 钟 ， 它 通过 操作 IO 端口 0x70 和 0x71 将 


RTC 时 钟 值 保存 在 struct _ time 结构 内 。 
代码 清单 12-37 第 12 章 \ 程 序 \ 程 序 12-10\ 物 理 平台 \kernel\time.c 


#define CMOS_READ (addr) 
io_out8(0x70,0x80 | 
io_in8(0x71); \ 


(人 
dj) 忆 


int get_cmos_time(struct time *time) 


time->minute = CMOS_READ 


OUOZ) 


GT 人 (这 
do 
{ time->year = CMOS_READ (0x09) + CMOS_READ (0x32) * 0x100; 
time->month = CMOS_READ (0x08); 
time->day = CMOS_READ (0x07); 
time->hour = CMOS_READ (0x04); 
( ) 
) 


time->second = CMOS_READ (0x00); 


}while (time->second 
io_out8(0x70,0x00); 
sti(); 

} 


1= CMOS_READ (0x00)); 


这 段 代码 中 的 宏 函 数 cCMOS_READ 封 装 了 读 取 RTC 寄 存 器 的 过 程 , 它 先 向 IO 端口 0x70 写 人 寄存 器 索 


引 地 址 ， 再 从 IO 端口 0x71 读 取 寄 
中 断 的 使 能 ， 在 访问 RTC 的 过 程 昌 


存 器 值 。 此 处 需要 特别 注意 IO 端口 0x70 的 第 7 位 ， 此 位 用 于 控制 NMI 
EE 请 始终 保持 置 位 状态 (禁止 NMI 中 断 请 求 )， 以 防止 NMI 中 断 请 求 干 


扰 读 取 结果 ， 当 RTC 访 问 结 束 后 再 使 能 NMI 中 断 请 求 。 同 理 ， 函 数 get_cmos_time 在 访问 RTC 的 过 程 


中 也 请 全 程 禁止 中 断 响应 。 


间 发 生 跳 变 。 
现在 ,操作 系统 可 通过 函数 


函数 get_cmos_time 在 访问 RTC 的 过 程 中 使 用 了 循环 语句 , 这 是 为 了 防止 在 读 取 RTC 的 过 程 中 时 


get_cmos_time 取 得 墙 上 时 钟 ， 将 此 函数 捅 和 人 到 内 核 主 程序 中 验证 


其 运行 效果 ， 代 码 清单 12-38 是 get_cmos_time 函 数 的 测试 程序 。 


代码 清单 12-38 ”第 12 章 \ 程 序 \ 程 序 12-10\ 物 理 平台 \kernel\main.c 


void Start_Kernel (voigd) 


color_printk (RED,BLACK, "interrupt init \n"); 


#if APIC 


APIC_IOAPIC init(); 


#else 
init_8259A(); 
#endif 


get_cmos_time(&time) 


’ 
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Color_printk (RED, BLACK, "year:%#010x,month:%#010x,day:%#010x,hour:%#010x,mintue: 
$#010x, second:%#010x\n",time.year,time.month,time.day,time.hour,time.minute, 
time.second); 


Color_printk (RED,BLACK, "keyboard init \n"); 
keyboard_init(); 

Color_printk (RED,BLACK, "mouse init \n"); 
mouse_init(); 

COlor_printk (RED,BLACK, "ICR init \n"); 


if (p_kb->count) 
analysis_keycode(); 

if (p_mouse->count) 
analysis_mousecode(); 


} 
从 这 段 程 序 可 知 ,内 核 主 程序 在 引入 墙 上 时 钟 获 取 功 能 的 同时 ,还 恢复 了 APIC 及 某 些 驱动 程序 的 
初始 化 代码 ， 图 12-24 是 墙 上 时 钟 测 试 程序 的 运行 效果 。 
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多 12-24 RTC 时 钟 运行 效果 图 


根据 图 12-24 描 述 的 RTC 运 行 效 果 可 以 了 解 到 ， 当 前 墙 上 时 钟 为 2017 年 7 月 2 日 15 时 11 分 27 秒 。 

2. HPET 驱 动 程序 

HPET 芯 片 位 于 主板 芯片 组 中 ， 它 的 时 间 精 确 度 高 达 69.841279 ns ， 这 比 8253 PIT 芯 片 的 时 间 精 而 
度 高 出 许多 。HPET 改 片 共 有 8 个 定时 器 ， 每 个 定时 器 都 由 若干 个 寄存 器 组 成 ， 这 些 定 时 器 的 配置 过 程 
与 JO APIC 的 配置 过 程 十 分 相似 。 

在 系统 上 电 后 ，HPET 默 认 处 于 禁止 状态 。 此 时 处 理 器 无 法 寻 址 到 HPET 的 配置 寄存 器 ， 只 有 置 位 
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HPTC 寄 存 器 的 地 址 映射 使 能 标志 位 〈 第 7 位 ) 后 ， 才 能 寻 址 到 HPET 的 配置 寄存 器 。 随 后 ， 再 根据 操 
作 系 统 指派 的 定时 任务 去 设置 定时 右 的 配置 寄存 器 。 表 12-7 描 述 了 HPET 各 配置 寄存 带 的 功能 。 


表 12-7 HPET 各 配置 寄存 器 的 功能 说 明 表 


寄存 器 索引 助 记 名 寄 存 器 默 认 值 
000h ~ 007h GCAP ID 整体 机 能 寄存 器 0429,B17F,8086,A701h 
010h ~ 017h GEN_CONF 整体 配置 寄存 器 0000,0000,0000,0000h 
020h ~ 027h GINTR_STA 整体 中 断 状态 寄存 器 0000,0000,0000,0000h 
OFOh ~ OF7h MAIN_CNT 主 计数 器 无 
100h ~ 107h TIMO_CONF 定时 器 0 的 配置 寄存 器 无 
108h ~ 10Fh TIM0_COMP 定时 器 0 的 对 比 寄存 器 无 
120h ~ 127h TIM1_CONF 定时 器 1 的 配置 寄存 器 无 
128h ~ 12Fh TIM1_COMP 定时 器 1 的 对 比 寄存 器 无 
140h ~ 147h TIM2_CONF 定时 器 2 的 配置 寄存 器 无 
148h ~ 14Fh TIM2_COMP 定时 器 2 的 对 比 寄存 器 无 
160h ~ 167h TIM3_CONF 定时 器 3 的 配置 寄存 器 无 
168h ~ 16Fh TIM3_COMP 定时 器 3 的 对 比 寄存 器 无 
180h ~ 187h TIM4_CONF 定时 器 4 的 配置 寄存 器 无 
188h ~ 18Fh TIM4_ COMP 定时 器 4 的 对 比 寄存 器 无 
1A0h ~ 1A7h TIM5_CONF 定时 器 5 的 配置 寄存 器 无 
1A8h ~ 1AFh TIM5_COMP 定时 器 5 的 对 比 寄存 器 无 
1COh ~ 1C7h TIM6_CONF 定时 器 6 的 配置 寄存 器 无 
1C8h ~ 1CFh TIM6 COMP 定时 器 6 的 对 比 寄存 器 无 
1E0h ~ 1E7h TIM7_CONF 定时 器 7 的 配置 寄存 器 无 
1E8h ~ 1EFh TIM7_COMP 定时 器 7 的 对 比 寄存 器 无 

注 : 剩余 寄存 器 索引 值 保留 ， 未 使 用 。 
以 下 是 HPTC 寄 存 器 与 HPET 配 置 寄 存 需 的 概括 介绍 ， 更 详细 介绍 还 请 读者 自行 查阅 mmtel 芯 片 组 的 


官方 白皮书 。 

@ HPTC 和 寄存 器 

HPTC 是 一 个 4B 寄 存 器 ， 它 负责 控制 HPET 设 备 访 问 地 址 的 开启 与 否 以 及 选择 HPET 配 置 寄存 器 组 
的 物理 基地 址 。HPTC 寄 存 器 ( High Precision Timer Configuration Register ) 位 于 芯片 组 配置 寄存 器 的 
3404h 偏 移 处 ， 此 处 的 芯片 组 配置 寄存 器 的 物理 基地 址 依然 由 RCBA 寄 存 器 指定 ， 图 12-25 是 HPTC 寄 存 
器 各 位 的 功能 说 明 。 


31 876 210 
保留 保留 


地 址 映射 使 能 标志 位 
地 址 映射 范围 选择 域 


图 12-25 HPTC 寄 存 器 的 位 功能 说 明 图 
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HPTC 寄 存 器 的 地 址 映射 使 能 标志 位 用 于 控制 HPET 设 备 访问 地 址 的 开启 ， 只 有 当 它 处 于 置 位 状态 
时 ， 芯 片 组 才 会 将 HPET 配 置 寄存 器 映射 到 内 存 地 址 空间 。 不 仅 如 此 ，HPTC 寄 存 器 还 提供 地 址 映射 范 
围 选 择 域 我 们 通过 此 位 域 可 设置 HPET 配 置 寄存 器 在 内 存 地 址 空间 中 的 映射 地 址 , 表 12-8 提 供 了 HPET 
配置 寄存 器 可 选 的 映射 地 址 。 


表 12-8 HPET 配 置 寄存 器 的 映射 地 址 说 明 表 


数值 映射 地 址 范围 
00 FED0,0000h ~ FED0,03FFh 
01 FED0,1000h ~ FED0,13FFh 
10 FED0,2000h ~ FED0,23FFh 
11 FED0,3000h ~ FED0,33FFh 


@ GCAP ID 寄存 器 

GCAP ID 寄存 器 (General Capabilities and Identification Register ) 保存 着 HPET 的 整体 机 能 ， 其 
包括 定时 髓 的 时 间 精 度 、ID 号 、 定 时 咒 数 等 信息 ， 它 是 一 个 只 读 寄存 髓 ， 其 寄存 右 各 位 的 功能 说 明 请 
见 图 12-26。 


63 3231 16 15 14 13 12 87 0 
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旧 设 备 中 断路 由 兼容 功能 

保留 

计数 器 位 宽 

定时 器 数 

修订 版 本 号 

图 12-26 ”GCAP_ ID 寄存 器 的 位 功能 说 明 图 


以 下 是 GCAP_ID 寄 存 器 各 位 的 功能 概述 。 

口 主 计数 器 时 间 精 度 〈bit 63:32 )。 此 位 域 记 录 着 高 精度 定时 器 的 时 间 精 度 ， 其 固定 为 数值 
0429,B17Fh， 表 示 每 69841279 fs=69.841279 ns 计数 一 次 。 

口 供应 商 ID 〈bit 31:16)。 它 表示 HPET 设 备 的 供应 商 ID 号 。 

口 旧 设 备 中 断路 由 兼容 功能 〈bit 15)。 它 表示 兼容 8259A 中 断 控制 器 的 中 断 请 求 链 路 ， 置 位 表示 
支持 。 

口 计数 器 位 宽 〈bit 13)。 它 是 定时 /计数 器 位 宽 ， 置 位 说 明 其 位 宽 为 64 位 。 

口 定时 器 数 〈bit 12:8)。 它 是 芯片 拥有 的 定时 器 数量 ， 数 值 07h 表 示 有 8 个 定时 髓 。 

口 修订 版 本 号 〈bit 7:0)。 它 是 HPET 设 备 的 修订 版 本 号 ， 默 认 值 为 01h。 

e@ GEN_ CONF 寄存 器 

GEN_CONF 寄 存 器 (General Configuration Register ) 用 于 配置 HPET 的 整体 功能 ， 主 要 控制 HPET 


芯片 是 否 能 产生 中 断 以 及 定时 器 0/1 的 中 断 请 求 链 路 ， 图 12-27 是 GEN_CONF 寄 存 器 各 位 的 功能 介绍 


63 2 1 0 


保留 | 


旧 设备 中 断路 由 兼容 标志 位 二 
定时 器 组 使 能 标志 位 
图 12-27 GEN_CONF 寄 存 器 的 位 功能 说 明 图 


以 下 是 GEN_CONF 寄 存 器 各 位 的 功能 概述 。 

口 旧 设 备 中 断路 由 兼容 标志 位 (bit 1)。 置 位 此 标志 位 ， 将 使 定时 器 0 向 8259A 的 耻 Q0 引 脚 或 O 
APIC 的 IRQ2 引 脚 发 送 中 断 请 求 , 并 使 定时 器 1 向 8259A 的 IRQ8 引 脚 或 /1O APIC 的 IRQ8 引 脚 发 送 
中 断 请 求 ; 其 他 定时 器 始终 根据 自身 配置 选择 中 断 请 求 的 接收 引 脚 。 

口 定时 器 组 使 能 标志 位 (bit0)。 只 有 和 置 位 此 标志 位 才能 使 HPET 定 时 器 产生 中 断 。 如 果 将 其 复位 ， 
那么 主 计数 器 将 停止 计数 ， 导 致 所 有 定时 器 都 无 法 产生 中 断 。 

@ GINTR _STA 寄 存 器 

GINTR_STA 寄 存 器 ( General Interrupt Status Register ) 用 于 记录 各 定时 器 的 中 断 触 发 状态 ,图 12-28 

是 GINTR_STA 寄 存 器 各 位 的 功能 介绍 。 


03 87 6543210 


定时 器 7 的 中 断 触 发 标志 位 
定时 器 6 的 中 断 触 发 标志 位 
定时 器 5 的 中 断 触发 标志 位 
定时 器 4 的 中 断 触发 标志 位 
定时 器 3 的 中 断 触发 标志 位 
定时 器 2 的 中 断 触发 标志 位 
定时 器 1 的 中 断 触发 标志 位 
定时 器 0 的 中 断 触发 标志 位 


图 12-28 GINTR_STA 寄 存 器 的 位 功能 说 明 图 


以 下 是 GINTR_STA 寄 存 器 各 位 的 功能 简介 。 

定时 器 N 的 中 断 触发 标志 位 〈bit 7:0)。 如 果 定 时 器 中 断 请 求 采用 电 平 触发 模式 ， 那 么 硬件 会 自动 
置 位 对 应 的 定时 器 位 。 软 件 只 有 向 中 断 触 发 标志 位 写 人 1 才能 将 其 复位 ， 写 和 人 0 是 无 效 操作 。 如 果 中 断 
请 求 采用 边沿 触发 模式 ， 那 么 此 标志 位 可 忽略 ， 软 件 应 该 始终 保持 此 标志 位 处 于 复位 状态 。 

e@ MAIN_CNT 和 寄存 器 

MAIN_CNT 寄 存 器 (Main Counter Value Register ) 是 HPET 世 片 的 主 计 数 器 ， 它 是 一 个 64 位 的 可 读 
写 寄存 器 ， 图 12-29 描 述 了 MAIN_CNT 寄 存 器 各 位 的 功能 。 


063 0 


主 计数 值 (Counter Value) 


图 12-29 MAIN_CNT 寄 存 器 的 位 功能 说 明 图 


MAIN_CNT 寄 存 器 记录 着 HPET 芯 片 的 计数 值 ， 所 有 定时 器 都 是 在 主 计数 器 的 基础 上 进行 定时 
的 。 如 果 处 理 需 对 MAIN_CNT 寄 存 器 进行 读 访 问 ， 它 将 返回 当前 计数 值 ; 如 果 对 MAIN_CNT 寄 存 器 进 
行 写 访问 ， 那 么 新 的 计数 值 将 更 新 到 此 寄存 器 中 。( 只 有 在 主 计数 器 停止 计数 时 ， 新 的 计数 值 才 会 更 
新 到 MAIN_CNT 寄 存 器 。 

@ TIMn _ CONF 寄存 器 

TIMn _ CONF 寄存 器 (Timer N Configuration and Capabilities Register ) 与 TIMn COMP 寄存 器 是 一 


对 定时 配置 寄存 器 ，HPET 芯 片 为 每 个 定时 器 都 准备 了 一 对 定时 配置 寄存 器 ， 操 作 系统 根据 定时 任务 
可 将 定时 器 配置 成 不 同 种 工作 模式 。 图 12-29 是 TIMn_CONF 寄 存 器 各 位 的 功能 说 明 。 
63 5655 二 二 -人 二 45 44 43 42 1t61 1 1 A 


定时 器 中 断路 由 
定时 器 中 断 消 息 投递 标志 位 

定时 融 趾 断 消息 使 能 标志 位 

于 品 秆 末路 由 
证 人 
定时 人 
定时 器 侣 
周明 定时 标志 位 


于 | 保留 定时 器 中 断 使 能 标志 位 
N : 0/1/2/3/4/5/6/7 中 断 触发 模式 


图 12-30 TIMn_CONF 寄 存 器 的 位 功能 说 明 图 


以 下 是 TIMn_CONF 寄 存 器 各 位 的 功能 描述 。 
口 定时 器 中 断路 由 功能 (bit 55:52,44,43 )。 这 些 位 都 是 只 读 标志 位 ， 它们 用 于 描述 定时 器 可 使 


用 的 中 断 请 求 引 脚 ， 表 12-9 介 绍 了 这 些 标志 位 与 中 断 请 求 引 脚 的 对 应 关系 。 
表 12-9 ”中断 请 求 引 脚 的 使 用 说 明 表 
Timer N bit 43 bit 44 bit 52 bit 53 bit 54 bit 55 
Timer 0/1 N/A N/A IRQ 20 IRQ21 IRQ 22 IRQ 23 
Timer 2 IRQ 11 N/A IRQ 20 IRQ 21 IRQ 22 IRQ 23 
Timer 3 N/A IRQ 12 IRQ 20 IRQ 21 IRQ 22 IRQ 23 


注 : 定时 器 4/S/6/7 的 这 些 标识 位 始终 为 0 它们 只 能 借助 TIMERn PROCMSG ROUT( Timer N Processor Message Interrupt 
Rout Register， 定 时 器 的 中 断 消 息 路 由 寄存 器 ) 来 投递 中 断 消息 。 
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口 定时 值 设置 标志 位 〈bit 6) 。 此 标志 位 只 对 处 于 周期 定时 模式 下 的 定时 器 0 起 作用 ， 
位 可 使 软件 在 定时 器 运 行 时 直接 修改 定时 值 。 


参考 表 12-9。 定 时 器 4/5/6/7 不 支持 该 功能 。 


口 定时 器 中 断 消息 投递 标志 位 bit 15)。 此 位 是 上 只 读 标 志 位 ， 如 果 HPET 支 持 直 接 处 理 器 中 断 消 
息 投递 功能 ， 那 么 此 位 始终 为 1。 
口 定时 器 中 断 消息 使 能 标志 位 《bit 14)。 如 果 该 标志 位 与 定时 器 中 断 消息 投递 标志 位 (bit 15 ) 

同时 置 位 ， 那 么 定时 器 将 直接 把 中 断 消息 投递 至 处 理 器 ， 而 不 使 用 8259A 中断 控 和 

APIC。 在 这 种 情况 下 ， 定 时 器 中 断路 由 位 域 (bit 13:9 ) 将 失效 ， 定时 器 转 而 使 用 

TIMERn PROCMSG ROUT 代替 。 
口 定时 器 中 断路 由 《bit 13:9)。 此 位 域 用 于 设置 定时 器 使 用 的 中 断 请 求 引 脚 ( 可 以 是 8259A 中 断 
控制 器 或 者 IO APIC )， 请 
口 计数 器 位 宽 模 式 〈bit 8)。 此 标志 位 用 于 设置 定时 器 的 计数 器 位 宽 。 只 有 定时 器 0 可 设置 计数 器 
位 宽 (1 为 32 位 宽 ，0 为 64 位 宽 )， 其 他 定时 器 固定 为 32 位 宽 ( 标志 位 只 读 )。 


制 需 或 者 IO 


置 位 此 标志 


此 位 是 只 读 标 志 位 ，1 表 示 定 时 器 支持 周期 定时 功能 ， 如 引 


计数 )，1 为 使 能 中 断 。 


模式 。 
@ TIMn COMP 和 寄存 器 


口 中 断 触发 模式 (bit 1)。 


默认 情况 下 ， 定 时 器 处 于 禁止 中 断 状 态 。 


口 定时 器 位 宽 标志 位 〈bit 5)。 此 位 是 只 读 标志 位 ，1 表 示 定 时 需 的 时 间 计 数位 宽 是 64 位 ，0 表 示 
定时 器 的 时 间 计 数位 宽 是 32 位 。 目 前 只 有 定时 器 0 的 时 间 计 数位 宽 是 64 位 。 
口 周期 定时 功能 bit 4)。 
不 支持 。 目 前 只 有 定时 器 0 支持 周期 定时 功能 。 
口 定时 器 类 型 《bit 3)。 此 位 用 于 设置 定时 器 类 型 ，1 表 示 周 期 性 产生 中 断 ，0 表 示 一 次 性 产生 中 
断 。 目 前 只 有 定时 器 0 支持 周期 性 产生 中 断 ， 其 他 定时 器 只 支持 一 次 性 产生 中 断 。 
口 定时 器 中 断 使 能 标志 位 〈bit2)。 此 位 用 于 控制 定时 器 的 中 断 使 能 ，0 为 禁止 中 断 〈 定时 吉 仍 在 


为 0 则 表示 


此 位 用 于 设置 定时 器 的 触发 模式 ，0 为 边沿 触发 模式 ，! 为 电 平 触发 


TIMn_ COMP 寄存 器 (Timer N Comparator Value Register ) 用 于 记录 各 定时 器 的 定时 值 ， 只 有 当 
MAIN_CNT 寄 存 器 的 计数 值 与 TIMn COMP 寄 存 器 保存 的 定时 值 相等 时 ， 定 时 器 才 会 产生 中 断 。 


结合 上 述 HPET 必 片 的 寄存 咒 描 述 和 驱动 程序 的 开发 经 验 ， 相 信 实 


: 现 一 个 定时 器 驱动 程序 并 不 会 


太 困 难 , 仅 需 设 置 HPET 的 配置 寄存 器 、 初 始 化 IO APIC 对 应 引 脚 的 RTE 寄 存 器 并 注册 中 断 处 理 函 数 即 
可 。 以 下 几 段 代码 是 HPET 驱 动 的 初始 化 程序 。 


代码 清单 12-39 是 HPET 驱 动 初始 化 函数 的 起 始 部 分 ， 


它 借鉴 了 WO APIC 的 初始 化 代码 来 寻 址 


HPTC 寄 存 器 ， 随 后 通过 设置 HPTC 寄 存 器 将 HPET 的 配置 寄存 器 组 的 起 始 地 址 映射 到 物理 地 址 


OxF 


ED0,0000 处 。 


代码 清单 12-39 ”第 12 章 \ 程 序 \ 程 序 12-11\ 物 理 平台 \kernel\HEPT.c 


extern struct time time; 


void HPET_ init() 

{ 
unsigned int x; 
unsigned int * p; 


unsigned char * HPET addr = (unsigned char *)Phy_To_Virt (0xfed00000); 
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Ws 


struct IO_APIC_RET_entry entry; 


//get RCBA address 
io_out32 (0xcf8,0x8000f8f£0); 
Se SO SL 32. 00KeEE) 
E000 
//get HPTC address 
if(x > 0xfec00000 && x < 0xfee00000) 
{ 
p = (unsigned int *)Phy_To_Virt (x + 0x3404UL); 
} 


//enable HPET 
:从 -三 -0 天 807> 
io_mfence(); 


为 了 便于 操作 系统 管理 墙 上 时 钟 ， 代 码 清单 12-39 把 struct time 结 构 体 变量 time 调 整 为 全 局 


此 次 我 们 选择 为 HPET 芯 片 的 定时 需 0 编 写 驱 动 程序 ,并 选用 IO APIC 的 IRQ2 作 为 它 的 中 断 请 求 
接收 引 脚 。 那 么 ， 下 一 步 就 为 定时 器 0 配置 /O APIC 并 注册 中 断 处 理 函 数 ， 代 码 清单 12-40 是 具体 程 
序 实现 。 


代码 清单 12-40 ”第 12 章 \ 程 序 \ 程 序 12-11\ 物 理 平台 \kernel\HEPT.c 


//init I/O APIC IRQ2 => HPET Timer 0 
entry.vector = 34; 
entry.deliver mode = APIC_ICR_ IOAPIC Fixed ; 
entry.dest_mode = ICR_IOAPIC DELV_PHYSICAL; 
entry.deliver_status = APIC_ICR IOAPIC Idle; 
entry.polarity = APIC_IOAPIC_ POLARITY_HIGH; 
entry.irr = APIC_IOAPIC_ IRR_ RESET; 
entry.trigger = APIC_ICR_ IOAPIC Edge; 
entry.mask = APIC_ICR_IOAPIC Masked; 
entry.reserved = 0; 


entry.destination.physical.reservedl1 = 0; 
entry.destination.physical.phy_dest = 0; 
entry.destination.physical.reserved2 = 0; 

register_irq(34, &entry , &HPET handler, NULL, &HPET_ int_ controller, "HPET"); 

上 述 代码 为 定时 器 0 选择 中 断 向 量 号 34， 并 将 中 断 请 求 信号 配置 成 边沿 触发 模式 。 此 处 的 中 断 处 
理 接口 HPET_int_controller 与 其 他 驱动 程序 的 实现 相同 ， 直 接 复制 过 来 即 可 ， 不 必 过 多 深究 。 而 
处 于 实验 阶段 的 中 断 处 理 函 数 HPET_handler 也 不 必 实 现 太 多 功能 ， 只 要 能 验证 执行 通路 就 好 ， 代 码 
清单 12-41 是 定时 器 0 目前 的 中 断 处 理 也 数 。 


代码 清单 12-41 第 12 章 \ 程 序 \ 程 序 12-11\ 物 理 平台 \kernel\HEPT.c 


void HPET_ handler (unsigned long nr, unsigned long parameter, struct pt_regs * regs) 


{ 


Color_printk (RED,WHITE, " (HPET)"); 
} 
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代码 清单 12-42 是 HPET 驱 动 初始 化 函数 的 结尾 部 分 , 这 部 分 程序 将 对 HPET 忌 片 进行 配置 , 使 得 定 
时 器 0 每 隔 1 s 产 生 一 次 中 断 请 求 信号 ( 周期 定时 模式 ) 并 使 用 MO APIC 的 IRQ2 引 脚 接收 中 断 请 求 ， 代 


码 清单 12-42 是 其 详细 配置 过 程 。 


代码 清单 12-42 第 12 章 \ 程 序 \ 程 序 12-11\ 物 理 平台 \kernel\HEPT.c 


Color_printk (RED,BLACK, "HPET - GCAP_ID:<%#0181lx>\n",*(unsigned long *)HPET_ addr); 


*(unsigned long *) (HPET_addr + 0X1 


io_mfence(); 


//edge triggered & periodic 


*(unsigned long *) (HPET_addr + 0X1 


io_mfence(); 


/18 


*(unsigned long *) (HPET_addr + 0X1 


io_mfence(); 


//init MAIN_CNT & get CMOS time 
get_cmos_time(&time); 


0) 


00) 


08) 


*(unsigned long *) (HPET_addr + Oxf0) 


io_mfence(); 


ll 


Ox004c; 


14318179; 


Color_printk (RED,BLACK, "year:%#010x,month:%#010x,day:%#010x,hour:%#010x,mintue: 
S#010x, second:%#010x\n",time.year,time.month,time.day,time.hour,time.minute, 


time.second); 


当 HPET 芯 片 配置 完成 后 ， 处 理 器 通过 向 MAIN_CNT 寄 存 器 写 人 初始 值 来 启动 它 。 当 MAIN_CNT 
寄存 器 进入 中 止 状态 后 ， 处 理 器 必须 向 其 写 人 数值 才能 使 它 恢复 到 运行 状态 。 我 们 也 可 在 MAIN_CNT 
寄存 器 进入 运行 状态 后 ， 再 通过 配置 GEN_CONF 寄 存 器 来 启动 它 。 

鉴于 定时 器 0 今后 可 能 会 用 于 管理 墙 上 时 钟 ， 为 了 尽量 保证 时 间 的 准确 性 ， 特 将 墙 上 时 钟 获取 郴 


数 get_cmos_time 搬 和 人 到 定时 器 启动 代码 之 前 ， 以 缩短 RTC 时 钟 与 定时 需 0 的 计数 时 间 间 隔 。 
最 后 ,在 内 核 主 程序 中 调用 HPET 驱 动 初始 化 函数 ,启动 定时 器 0， 代 码 清单 12-43 是 初始 化 函数 的 


插入 位 置 。 


代码 清单 12-43 ”第 12 章 \ 程 序 \ 程 序 12-11\ 物 理 平台 \kernel\main.c 


void Start_Kernel (voidi) 


#if APIC 

APIC_IOAPIC init(); 
#else 

init_8259A(); 
#endif 


color_printk (RED,BLACK, "Timer & Clock init \n"); 


HPETS ir ()3 


VR[12] enabled 
x2APIC ID:0x00000001 ， 二 UStartim 
C & x2APIC enab edt 


(HPET) (HPET) (HPET) (HPED) (HPED) (HPED (HPED) (HPED) (HPET) (HPED) (H 


HPET) (HPET) (HPET) (HPET) (HPET) (HPET) 
ET) (HPET) (HPET) (HPET) (HPET) (HPET) (HPET) (HPET) (HPET) 人 (HPET) (HPET) (HPET) 


图 12-31 ”定时 圳 0 的 运行 效果 图 


12.3.3 ”内 核定 时 器 


现在 ， 本 系统 已 成 功 取得 墙 上 时 钟 ， 并 启动 HPET 芯 片 的 定时 器 0。 为 了 让 定时 器 0 能 够 真正 派 上 


> 


务 设 定 执行 时 间 ， 而 且 还 间接 为 操作 系统 的 进程 管理 单元 提供 了 时 间 片 支持 。 


1. 软 中 断 处 理 机 制 的 实现 


j 场 ， 而 不 仅仅 是 一 个 摆设 ， 下 面 将 为 系统 实现 定时 器 功能 。 操 作 系 统 凭 借 定 时 器 功能 ， 不 但 可 为 任 


虽然 本 系统 已 拥有 中 断 上 半 部 处 理 程序 ， 但 由 于 中 断 上 半 部 是 通过 处 理 器 的 中 断 门 描述 符 或 陷阱 
门 描述 符 进 入 的 ， 当 处 理 器 穿 过 这 些 门 描述 符 时 ， 中 断 标志 位 正 会 自动 复位 以 禁止 中 断 ， 从 而 使 得 处 


理 器 无 法 响应 更 高 优先 级 的 中 断 请 求 。 


如 果 我 们 ; 1 起 时 之 处 理 功能 全 部 站 是 在 中 断 上 半 部 的 话 ， 从 实现 角度 看 ， 此 种 设计 是 可 行 的 , 但 
随 着 定时 与 进程 调度 等 功能 的 组 入 ， 定 时 器 的 中 断 处 理 过 程 将 会 非常 耗 时 。 因 此 ， 如 果 对 中 断 的 响应 


中 断 下 半 部 的 软 中 断 处 理 机 制 。 这 样 一 来 ， 可 大 大 缩短 中 断 的 禁 


速度 做 长 远 考虑 的 话 ， 这 种 设计 还 是 有 很 大 欠缺 的 。 为 了 提高 中 断 的 响应 速 


束 度 ， 我 们 特 为 本 系统 实现 


时 间 ， 进 而 提高 任务 的 执行 效率 。 


参照 图 10-30 撒 绘 的 Linux 中 断 处 理 机 制 ， 本 系统 为 软 中 断 处 理 机 
是 相关 结构 和 宏 常量 的 定义 。 


代码 清单 12-44 ”第 12 章 \ 程 序 \ 程 序 12-12\ 物 理 平台 \kernel\softirq.h 


#define TIMER_SIRO (sy 


unsigned long softird_status = 0; 


判定 义 了 相关 结构 体 ， 代 码 清和 


单 12-44 
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struct -softird 
{ 
void (*action) (void * data); 
void * data; 
} 
struct softirg softirdq vector[64] = {0}; 


在 这 段 代 码 中 ，struct softirq 结 构 用 于 描述 软 中 断 的 处 理 方法 和 参数 ， 系 统 共 可 处 理 64 种 软 
中 断 ， 而 且 这 些 软 中 断 是 不 分 中 断 优先 级 的 。 全 局 变量 softirgq_status 记 录 着 软 中 断 状态 ， 当 其 中 
的 某 位 处 于 置 位 状态 时 ， 这 说 明 中 断 上 半 部 已 经 触发 了 对 应 的 软 中 断 。 鉴 于 定时 器 是 目前 仅 有 的 软 中 
断 ， 我 们 寻 且 让 它 使 用 软 中 断 状 态 变 量 的 第 0 位 ， 并 使 用 宏 TIMER_sSIRQ 对 此 位 加 以 标 误 。 

代码 清单 12-45 是 于 绕 着 软 中 断 状态 变量 softira_status 和 结构 体 struct softird 实 现 的 一 
套 维护 函数 ， 这 些 函 数 可 完成 软 中 断 的 初始 化 、 软 中 断 处 理 函 数 的 注册 与 注销 、 软 中 断 状态 的 获取 与 
设置 等 工作 。 
代码 清单 12-45 ”第 12 章 \ 程 序 \ 程 序 12-12\ 物 理 平 台 \kernel\softirq.c 


void set_softirg status (unsigned long status) 


{ 


softirqg status |= status; 


} 
unsigned long get_softirqg status() 


{ 
return softirg status; 
} 
void register softirgql(int nr,void (*action) (void * data),void * data) 
{ 
softirg vector[nr] .action = action; 
softirg vector[Inr] .data = data; 


} 


void unregister_ softirg(int nr) 


{ 
softirg vector[nr] .action = NULL; 
softirq vector[nr] .data = NULL; 


} 
VOLld :SOftdrd iinit.() 
{ 
softirg status = 0; 
memset (softirg vector,0,sizeof(struct softirqg) * 64); 


由 

这 里 请 读者 特别 注意 ， 对 于 未 初始 化 赋值 的 全 局 变量 和 动态 申请 的 内 存 空间 而 言 ， 它 们 的 内 存单 
元 中 很 可 能 存在 着 脏 数 据 ， 因 此 在 使 用 它们 前 请 务必 对 其 进行 初始 化 赋值 。 
当 软 中 断 结 构 和 相关 操作 函数 准备 就 绪 后 ， 下 面 将 从 定时 器 0 的 中 晰 处 理 函 数 出 发 ， 看 看 软 中 晰 
处 理 机 制 是 如 何 提高 中 断 响应 速度 的 。 

代码 清单 12-46 是 引入 软 中 断 处 理 机 制 后 的 定时 器 中 断 处 理 函 数 ,其 中 的 全 局 变量 jiffies (其 定 
义 为 unsigned long volatile jiffies = 0; ) 用 于 记录 定时 器 产生 的 中 断 次 数 ， 也 就 是 系统 时 
间 计 数值 。 通 过 这 个 周期 性 的 定时 器 和 get_cmos_time 子 数 取 得 的 墙 上 时 钟 可 间接 推算 (计算 ) 出 
此 刻 的 墙 上 时 钟 , 目前 , 定时 紫 中 断 处 理 函 数 的 唯一 任务 是 定时 计数 , 随 着 系统 时 间 计 数 变量 jiffies 
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的 累加 ， 据 数 HPET_handler 将 通过 调用 set_softiraga_status 卫 数 触发 软 中 断 ， 代 码 实现 如 下 代码 
清单 12-46。 


代码 清单 12-46 ”第 12 章 \ 程 序 \ 程 序 12-12\ 物 理 平台 \kernel\HPET.c 


void HPET_ handler (unsigned long nr, unsigned long parameter, struct pt_regs * regs) 
{ 

jiffiest+; 

set_softirg_ status (TIMER_SIRO) ; 
} 


当 软 中 断 状态 变量 softira_status 的 第 0 位 处 于 置 位 状态 后 ， 定 时 器 0 的 中 断 上 半 部 处 理 过 程 执 
行 结束 ， 函 数 HPET_handqler 随 即 返回 到 ret_from_intr 模 块 处 。 

在 执行 *et_from_inttr 模 块 时 ，ret_from_intr 模 块 通过 检测 软 中 断 状 态 变 量 softira_status 
可 判断 出 中 断 上 半 部 是 否 触发 过 软 中 断 。 如 果 有 竺 处 理 的 软 中 断 请 求 ， 处 理 器 将 跳 转 至 
softirq_handler 地 址 处 去 执行 软 中 断 处 理 函 数 ao_softird， 并 在 ao_softird 国 数 执行 结束 后 恢 
复 中 断 现场 ， 继 续 执 行 任 务 。 如 果 没 有 待 处 理 的 软 中 断 请 求 ， 处 理 器 将 直接 恢复 中 断 现 场 ， 继 续 执 行 
任务 。 代 码 清单 12-47 详 细 记 录 了 这 一 处 理 过 程 。 


代码 清单 12-47 第 12 章 \ 程 序 \ 程 序 12-12\ 物 理 平台 \kernel\entry.S 


ret_from exception: 
/*GET_CURRENT (gebx) need rewrite*/ 
ENTRY (ret_from intr) 


movd S$-—1; Srcx 
testq softirqg status(%$rip), %rcx 

jnz softirq handler 

jmp RESTORE_ALL /*need rewrite*/ 


softirqgq handler: 
callqgq do_softirqg 
jmp RESTORE_ALL 


代码 清单 12-47 是 基于 Linux 2.4 版 本 设计 的 软 中 断 入 口 程序 。 而 在 Linux 2.6 及 后 续 内 核 版 本 
中 断 处 理 函 数 do_softirag 将 在 中 断 处 理 函 数 do_IRQ 的 末尾 处 直接 调用 。 

系统 在 执行 软 中 断 处 理 函 数 时 会 逐个 检测 中 断 状态 变量 softirgq_status 的 各 个 位 。 如 果 有 某 位 
处 于 置 位 状态 ,系统 则 调用 相应 的 处 理 方 法 ， 并 在 执行 结束 后 ， 复 位 此 状态 位 。 如 此 往复 地 检测 ， 直 
至 所 有 标志 位 都 处 于 复位 状态 为 止 ， 代 码 清 单 12-48 是 检测 过 程 的 代码 实现 。 


代码 清单 12-48 第 12 章 \ 程 序 \ 程 序 12-12\ 物 理 平台 \kernel\softirq.c 


void do_softirqg() 
{ 


， 软 


int 1i» 

sti(); 

for(i = 0;i < 64 && softirq status;i++) 
if(softirqg status & (1 << i)) 
{ 


softirg vector[i].action(softirg vector [1] .daata) ; 
softirg status &= ~(1 << 工 ) ; 
} 
} 
CL Cs 
} 


从 代码 清单 12-48 可 知 ,在 软 中 断 处 理 函 数 的 执行 期 间 ， 处 理 器 是 可 以 使 能 中 断 的 ， 当 调用 宏 函 数 
sti 后 ， 处 理 需 可 再 次 接收 中 断 请 求 。 

目前 ， 由 于 硬件 外 设 使 用 的 门 描述 符 统一 采用 中 断 栈 表 IST2 作 为 中 断 栈 顶 地 址 ， 在 发 生 中 断 或 异 
常 时 ， 处 理 器 会 强制 将 栈 指针 寄存 器 RSP 设 置 为 中 断 栈 表 IST2 保 存 的 预 设 值 。 因 此 ， 如 果 中 断 发 生 凯 
套 ， 那 么 IST 中 断 栈 表 机 制 将 抹 去 外 层 中 断 处 理 程序 的 栈 数据 。 为 了 避免 此 类 现象 的 发 生 ， 现 在 将 对 
8259A 中 断 控 制 器 和 APIC 的 初始 化 函数 进行 修改 ， 把 门 描述 符 的 配置 代码 修改 为 set_intr_gate 
(1 0,interrupt[i-32]);， 以 使 处 理 器 改 用 RSP0 作 为 中 断 栈 项 地 址 。 

do_timer 是 定时 右 的 软 中 断 处 理 函 数 ， 它 在 定时 器 初始 化 函数 timer_init 里 ,通过 函数 
register_softird 向 系统 注册 软 中 断 处 理 方法 ， 程 序 实现 请 参见 代码 清单 12-49。 


代码 清单 12-49 ”第 12 章 \ 程 序 \ 程 序 12-12\ 物 理 平台 \kernel\timer.c 


void timer_ init() 
{ 

J EO 

register_softirgq(0,¢&do timer,NULL); 
} 


void do timer(void * data) 


{ 
color_printk (RED,WHITE," (HPET:%1d)",jiffies); 


} 

目前 ， 定 时 器 软 中 断 处 理 函 数 的 功能 相对 比较 简单 ， 它 只 打印 了 当前 系统 时 间 计 数值 jiffies ， 
即 每 隔 1 s 打 印 一 次 。 

至 此 ， 软 中 断 处 理 机 制 已 经 实现 ， 我 们 将 定时 器 与 软 中 断 的 初始 化 函数 组 人 到 内 核 主 程序 中 , 代 
码 清 单 12-50 是 两 者 的 插入 位 置 。 


代码 清单 12-50 “第 12 章 \ 程 序 \ 程 序 12-12\ 物 理 平 台 \kernelmain.c 


void Start_Kernel (voidi) 


#if APIC 
APIC_IOAPIC init(); 
#else 
init_8259A(); 
#endif 


COloOr Printk(RED,BLACK, "Soft IRQ init \n"); 
SOE 愉 Td 


Color_printk (RED,BLACK, "Timer & Clock init \n"); 


timer. 二 人 二 7 
HPET_init(); 


图 12-32 描 绘 了 定时 器 软 中 断 的 运行 效果 ,从 运行 效果 可 以 发 现 , 定时 器 软 中 断 每 隔 1 s 将 会 打印 一 次 
计数 值 。 
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图 12-32 ”定时 右 软 中 断 的 运行 效果 图 


2. 定时 功能 的 实现 

于 软 中 断 处 理 机 制 设计 的 内 核定 时 器 可 使 定时 功能 变 得 更 加 灵活 ， 那 么 下 面 就 在 软 中 断 处 理 机 

制 的 基础 上 实现 定时 功能 。 
考虑 到 定时 任务 往往 是 动态 指派 的 ， 那么 定时 右 至 少 应 该 拥有 一 个 动态 队列 、 人 处 理 方法 、 参 数 以 

及 期 望 执行 时 间 等 几 个 关键 因素 , 代码 清单 12-51 将 这 些 关键 因素 抽象 成 一 个 结构 体 来 描述 定时 功能 。 


| 


i 


代码 清单 12-51 第 12 章 \ 程 序 \ 程 序 12-13\ 物 理 平台 \kernel\timer.h 


Struct timere | 各 

{ 
St Tt LS 
unsigned long expire jiffies; 
void (* func) (void * data); 
void *data; 

} 

struct timer_list timer_list_head; 


这 上段 代码 中 的 结构 体 变量 timer_1ist_head 是 定时 功能 的 队列 头 ( 链表 头 )， 所 有 定时 任务 均 有 
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序 挂 载 于 此 队列 内 。 为 了 便于 维护 定时 队列 ,代码 清单 12-52 为 定时 器 实现 了 定时 队列 初始 化 、 定 时 任 
务 添加 与 删除 三 个 函数 。 


代码 清单 12-52 ”第 12 章 \ 程 序 \ 程 序 12-13\ 物 理 平台 \kernel\timer.c 


voiqd init timer(struct timer list * timer,voiqd (* func) (void * data),void 
*data,unsigned long expire jiffies) 
{ 


lJist_init(&timer->list); 


timer->func = func; 
timer->data = data; 
timer->expire jiffies = jiffies + expire jiffies; 


} 
void adqd timer(struct timer list * timer) 
{ 
struct timer_list * tmp = container of(list next (&timer_ list head.list),struct 
timer_list,1list); 


if(list_is_ empty (&timer_list head.list)) 
{ 
} 
else 
{ 
while(tmp->expire jiffies < timer->expire jiffies) 
tmp = container_ of (list next (&tmp->list),struct timer_ list,list); 
} 
list_adqd to behind(&tmp->list,é&timer->list); 
} 
void del timer(struct timer list * timer) 
{ 
Jist_del(&timer->list); 
} 


这 三 个 函数 的 实现 仅仅 是 基于 期 望 执行 时 间 expire_jiffies 的 双向 链表 节点 初始 化 、 插 和 信和 删 
除 等 操作 而 已 。 

经 过 此 番 准 备 工作 后 ， 为 了 测试 定时 功能 的 执行 效果 ， 我 们 在 定时 器 初始 化 函数 中 创建 一 个 延 时 
5 s 执 行 的 定时 任务 ， 这 个 任务 只 打印 了 一 条 日 志 信息 来 表示 定时 任务 正在 执行 ， 代 码 清单 12-53 是 定 
时 任务 的 测试 程序 。 


代码 清单 12-53 ”第 12 章 \ 程 序 \ 程 序 12-13\ 物 理 平台 \kernel\timer.c 


void timer_ init() 


{ 


struct timer_ list *tmp = NULL; 

jE 

init timer(&timer_ list_ head,NULL,NULL,-1UL); 
register_softirg(0,¢&do timer,NULL); 


tmp = (struct timer_list *)kmalloc(sizeof (struct timer_list),0); 
init timer (tmp,é&test_ timer,NULL,5); 
adqd_timer (tmp); 
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void test timer(void * data) 


{ 
Color_printk (BLUE,WHITE, "test_timer"); 


} 
现在 ， 定 时 任务 已 经 创建 完毕 ， 接 下 来 我 们 将 在 定时 器 软 中 断 处 理 函 数 中 实现 定时 任务 处 理 功 


能 ， 这 一 功能 是 基于 当前 系统 时 间 计 数值 和 期 望 计数 值 的 比较 实现 的 。 只 有 在 当前 系统 时 间 计 数值 超 
过 期 望 计 数值 后 ， 定 时 器 才 会 执行 定时 任务 。 定 时 任务 的 执行 期 间 将 伴随 着 双向 链表 节点 的 删除 与 索 
引 操作 ， 代 码 清 单 12-54 是 定时 任务 处 理 功 能 的 程序 实现 。 


代码 清单 12-54 ”第 12 章 \ 程 序 \ 程 序 12-13\ 物 理 平台 \kernel\timer.c 


void do_ timer(void * data) 


{ 
struct timer_list * tmp = container of (list next (&timer_list head.list),struct 


timer ListsyLiet). 
while((!list_is_ empty (&timer_list head.list)) 


jiffies)) 


&& (tmp->expire_ jiffies <= 


{ 
del_timer (tmp); 
tmp->func (tmp->data); 
tmp = container_ of (list next (&timer_ list head.list),struct timer list,list); 
} 
Color_printk (RED,WHITE," (HPET:%1d)",jiffies); 
} 
当 定 时 任务 执行 结束 后 ， 定 时 器 软 中 断 处 理 函 数 ao_timer 会 在 结尾 处 打印 当前 系统 时 间 计 数 
值 ， 通 过 此 值 可 以 论证 定时 任务 的 执行 时 机 是 否 准 确 。 
虽然 中 断 下 半 部 的 软 中 断 处 理 机 制 可 以 有 效 缩减 中 断 禁 止 的 时 间 ， 但 为 了 保证 程序 的 高 效 执行 ， 
还 是 尽量 避免 进入 中 断 下 半 部 为 妙 。 故 此 ,这 里 将 定时 器 0 的 中 断 处 理 函数 HPET_handler 修 改 成 代码 
清单 12-55 的 模样 。 


代码 清单 12-55 ”第 12 章 \ 程 序 \ 程 序 12-13\ 物 理 平台 \kernel\HPET.c 


void HPET_ handler (unsigned long nr, unsigned long parameter, struct pt_regs * regs) 
| 


jiffies+t+; 


if((container_ of (list_ next (&timer_ list head.list),struct 
timer_list,list)->expire jiffies <= jiffies)) 
set_softirg_ status (TIMER_SIRO); 


} 
这 段 代 码 限 制 了 定时 器 软 中 断 的 执行 时 机 ， 即 只 有 在 当前 系统 时 间 计 数值 超过 期 望 计 数值 后 ， 定 


时 器 中 断 处 理 函 数 HPET_handler 才 会 激活 软 中 断 处 理 函 数 ， 其 运行 效果 如 图 12-33 所 示 。 


图 12-33 ”定时 需 功 能 的 执行 
根据 图 12-33 显 示 的 运行 效果 可 以 看 出 , 定时 人 


timer 以 及 此 刻 的 系统 时 间 计 数值 。 
12.3.4 ”实现 进程 调度 功能 
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] 权 的 进程 。 
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北 
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j 的 内 核 空 


| 间 ) 才 全 


就 是 说 不 仅 时 | 
可 引发 进程 调度 。 


图 12-34 描 述 了 本 系统 的 进程 调 
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效果 图 
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调用 do_IRQ/do_Exception 处 理 中 晰 / 守 常 


HPET handler 
中 靳 上 于 部 


到 让 
中 ! py 
testq softirq_status(%rip), %re: 


人 ~ | callq do_softirq nt 可 
调 月 |ref fom_inbyret from_exception 钦 中 断 处 下 和 机 便 
从 下 晰 ) 吕 党 处 理 中 下 加 testq $2, TSK_FLAG(%rbx) tsk = get_next_task() 
callq schedule: Te > ‘insert task queue(current) 
严 程 测度 磋 switch_to(current,tsk) 


进程 1 


进程 调度 由 志 


中 类 /好 第 


> do_timer() 


Jmp RESTORE ALL 


进程 2 


网 


12-34 ”进程 调度 时 机 及 处 理 过 程 示 意图 


下 面 将 围绕 图 12-34 示 意 的 进程 调度 时 机 和 人 处 理 流程 来 实现 进程 调度 模块 。 至 于 调度 算法 ,本 系统 
则 稍微 参考 了 CFS 完 全 公平 调度 算法 的 设计 思路 来 模拟 一 个 简单 的 调度 算法 , ( 这 只 是 一 个 为 了 演示 进 
程 切换 的 调度 算法 ， 重 点 在 于 讲述 进程 调度 过 程 ， 请 读者 不 要 拘泥 于 调度 算法 上 的 缺陷 。 ) 本 系统 给 
调度 算法 使 用 变量 vrun_time 来 记录 每 个 进程 的 虚拟 运行 时 间 ， 再 结合 进程 优先 级 计算 出 进程 每 次 运 
行 的 时 间 片 数量 。 

为 了 实现 调度 算法 ,我 们 首先 必须 向 进程 控制 结构 体 struct task_struct 追 加 记录 进程 虚拟 运 
行 时 间 的 成 员 变量 vrun_time， 并 删除 了 多 余 的 成 员 变 量 counter， 同 时 还 调整 了 所 有 成 员 变 量 在 结 
构 体 内 的 存储 顺序 。 调 整 后 的 struct task_struct 结 构 体 定义 如 代码 清单 12-56 所 示 。 


T 
ey 


代码 清单 12-56 ”第 12 章 \ 程 序 \ 程 序 12-14\ 物 理 平台 \kernel\task.h 


struct task_struct 
{ 
volatile long state; 
unsigned long flags; 
long signal; 
struct mm_ struct *mm; 
struct thread_struct *thread; 
struct List list; 
unsigned long addr_limit; /*0x0000,0000,0000,0000 - 0x0000,7fff,ffff,ffff user*/ 
/*0REEfEEy8OQ0y0000' O0000 = OQXEFEE, FEEF ff ffff Kernel*y 


long pigd; 

long priority; 

long vrun time; 
上 
///////struct task_struct->flags: 
#define PF_KTHREAD CEUL < 0) 
#define NEED_SCHEDULE (1UL << 1) 


这 里 还 为 flags 成 员 变量 追加 标志 位 NEED_ScHEDULE, 此 标志 位 将 用 于 描述 当前 进程 是 否 可 被 调 
度 ， 如 果 此 标志 位 处 于 置 位 状态 则 表明 当前 进程 可 在 适当 时 机 进行 调度 。 

伴随 着 struct task_struct 结 构 体 的 修改 ,我们 还 要 相继 调整 INIT_TASK 宏 函数 ， 调 整 后 的 安 
函数 代码 如 代码 清单 12-57。 


轩 
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代码 清单 12-57 第 12 章 \ 程 序 \ 程 序 12-14\ 物 理 平台 \kernel\task.h 


#define INIT_TASK (LSK) % 

{ \ 
.State TASK_UNINTERRUPTIBLE, 
.flags PF_KTHREAD, 
SL9nNal 三 …07 
-mm = &init_mm, 
.thread = &init_ thread, 
.adgdr_limit = Oxffff800000000000, 
-DL EO; 
-Briority re, 
.vrun time = 0 


WE Of ,OR ge ep er 


} 

当 完 成 struct task_struct 绪 构 体 的 升级 工作 后 ， 下 面 将 调度 检测 程序 插入 到 中 断 /异常 处 理 
程序 的 返回 模块 中 ， 检 测 方法 是 判断 当前 进程 的 NEED_sScHEDULE 标 志 位 是 否 处 于 置 位 状态 ， 其 判断 
过 程 与 软 中 断 状态 变量 的 判断 过 程 相似 ， 请 参见 代码 清单 12-58。 


代码 清单 12-58 ”第 12 章 \ 程 序 \ 程 序 12-1 小 物理 平台 \kernel\entry.S 


ret_from exception: 
ENTRY (ret_from intr) 


movgd $-1, Ed, 
testqa softirg status (S$rip), Srcx 
jnz softirg handler 
GET_CURRENT (%rbx) 
movg TSK_FLAGS (%$rbx), 第 下 区 区 
testqa SD Srcx 
J reschedule 
jmp RESTORE_ALL 

softirg handler: 
callqg do_softirqa 
GET_CURRENT (%rbx) 
movgq TSK_FLAGS (%$rbx), SIrCx 
testqa $2, Srcx 
jnz reschedule 
jmp RESTORE_ALL 

reschedule: 
callqg schedule 
jmp RESTORE_ALL 


这 段 代码 借助 宏 cET_cURRENT 取 得 当前 进程 的 struct task_struct 结 构 体 , 再 通过 TSK_FLAGS 
符号 常量 取得 进程 控制 结构 体 成 员 变量 flags 保 持 的 数值 。 经 过 判断 ， 如 果 发 现 进程 的 标志 位 
NEED_SCHEDULE 处 于 置 位 状态 , 那么 处 理 器 就 跳 转 至 rechequle 模 块 处 调用 函数 schequle 执 行进 程 
调度 。 此 处 还 在 软 中 断 处 理 代 码 中 追加 了 进程 调度 检测 功能 。 

这 里 的 符号 常量 TSK_FLAGS 描 述 了 成 员 变 量 flags 在 struct task_struct 结 构 体 内 的 偏 移 ， 中 断 
/异常 处 理 程序 的 返回 模块 借助 它 可 轻松 地 从 栈 中 检索 到 成 员 变 量 ， 前 文中 调整 struct task_struct 
结构 体 成 员 变量 存储 顺序 的 目的 就 在 于 此 。 代 码 清单 12-59 是 几 个 常用 成 员 变 量 的 符号 常量 定义 。 


党 
汝 
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代码 清单 12-59 ”第 12 章 \ 程 序 \ 程 序 12-14\ 物 理 平台 ernelventry.S 


////struct task_struct member offset 


TSK_STATE = 0x00 
TSK_FLAGS = 0x08 
TSK_SIGNAL 二 0x10 


随 着 NEED_scHEDULE 标 志 位 被 置 位 ， 处 理 器 将 沿 着 上 述 代 码 的 执行 流程 进入 进程 调度 模块 。 桥 
数 schedule 会 先 复 位 NEED_SCHEDULE 标 志 位 , 然后 再 通过 get_next_task 函 数 从 准备 就 绪 队 列 中 取 
出 下 一 个 待 执 行 的 进程 。 如 果 当 前 进程 的 虚拟 运行 时 间 仍 是 最 少 的 ， 则 取出 的 进程 放 回 准备 就 绪 队 
列 。 否 则 就 执行 switch_to 函 数 切换 至 刚 取出 的 进程 中 ， 代 码 清 单 12-60 记 录 了 整个 进程 调度 过 程 。 


加 


[F 


代码 清单 12-60 ”第 12 章 \ 程 序 \ 程 序 12-14\ 物 理 平 台 \kernel\schedule.c 


void schedule() 
struaet task struet *tsk = "NULLD; 
current->flags &= ~NEED_SCHEDULE; 
tsk = get_ next_ task(); 
Color_printk (RED,BLACK, "#schedule:%d#\n",jiffies); 
if(current->vrun time >= tsk->vrun time) 
{ 
if (current->state == TASK_RUNNING) 
insert_task_queue (current); 
if(!task_schedule.CPU_ exec task jiffies) 
switch(tsk->priority) 


人 


case 0: 
case 1: 
task_schedule.CPU_ exec_ task jiffies = 4/task_schedule.running_ 
task_count; 
break; 
case 2: 
default: 
task_schedule.CPU_ exec task jiffies = 4/task_schedule.running_ 
task_count*3; 
break; 
} 


Switch to(current,tsk); 


} 
else 
{ 
insert_task_queue (tsk); 
if(!task_schedule.CPU exec task jiffies) 
Switch (tsk->priority) 
{ 
case 0: 
case 1: 
task_schedule.CPU_ exec task jiffies = 4/task_schedule.running_ 
task_count; 
break; 
case 2: 
default: 


task_schedule.CPU_ exec task jiffies = 4/task_schedule.running_ 
task_count*3; 
break; 


} 
} 


如 果 处 理 器 的 执行 时 间 片 变量 task_schequle.CPU_exec_task_jiffies 归 零 ， 这 段 程序 会 自 
动 为 其 分 配 ( 重新 计算 ) 新 的 时 间 片 。 如 果 本 次 调度 是 由 进程 时 间 片 到 期 引发 的 ， 那么 进程 的 运行 状 
态 依然 为 TASK_RUNNING ， 此 时 应 该 将 此 进程 再 次 插 人 到 准备 就 绪 队 列 中 ， 这 一 过 程 是 通过 
insert_task_queue 国 数 完成 的 ， 如 果 本 次 调度 室 由 其 他 功能 模块 引发 的 ,那么 进程 的 运行 状态 很 
可 能 会 发 生 改 变 ， 其 运行 状态 将 由 功能 模块 代为 管理 。 

目前 的 调度 时 机 只 有 一 个 ， 那 就 是 时 间 片 到 期 。 结 合 本 系统 的 进程 调度 模块 架构 与 调度 算法 ,我 
们 特 向 定时 器 中 断 上 半 部 处 理 程序 (中断 处 理 函数 ) 追加 进程 虚拟 运行 时 间 统 计 代码 和 处 理 器 时 间 片 
维护 代码 ， 程 序 实 现 如 代码 清单 12-61。 


代码 清单 12-61 第 12 章 \ 程 序 \ 程 序 12-14\ 物 理 平台 \kernel\HPET.c 
void HPET_ handler (unsigned long nr, unsigned long parameter, struct pt_regs * regs) 


switch(current->priority) 
{ 

case 0: 

case 1: 
task_schedule.CPU_exec task jiffies--; 
current->vrun time += 1; 
break; 
case 2: 
default: 
task_schedule.CPU_exec task jiffies -= 2; 
current->vrun time += 2; 
break; 


} 
if(task_schedule.CPU_ exec task_ jiffies <= 0) 
current->flags |= NEED_SCHEDULE; 
} 


这 段 代 码 将 根据 进程 的 优先 级 来 调整 处 理 器 消耗 时 间 片 的 速度 和 进程 虚拟 运行 时 间 的 增长 速 
度 。 如 果 进 程 拥有 的 时 间 片 被 处 理 右 耗 尽 ， 那 么 定时 右 中 断 处 理 函 数 将 置 位 NEED_SCHEDULE 标 志 位 
以 通知 系统 当前 进程 可 被 调度 (或 抢占 )。 
目前 已 完成 调度 模块 的 整体 框架 ,为 了 让 调度 模块 可 以 维护 所 有 准备 就 绪 的 进程 ， 我们 还 需要 为 
其 创建 准备 就 绪 队 列 ， 代 码 清单 12-62 是 进程 准备 就 绪 队 列 的 结构 定义 。 


代码 清单 12-62 第 12 章 \ 程 序 \ 程 序 12-14\ 物 理 平台 \kernel\schedule.h 


struct schedule 
{ 


long running task_ count; 
long CPU_exec_ task_ jiffies; 
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struct task struct task-aqaueue; 
ee schedule task_schedule; 
结构 体 struct schedule 中 的 成 员 变 量 tcask_aqueue 是 进程 准备 就 绪 队 列 的 队列 头 ， 成 员 变 量 
running_task_count 负 责 记 录 当 前 队列 内 的 进程 数量 , 而 成 员 变 量 CPU_exec_task_jiffies 则 在 
每 次 进程 调度 时 保存 进程 可 执行 的 时 间 片 数量 。 
在 使 用 准备 就 绪 队 列 前 ， 依 然 要 对 准备 就 绪 队 列 结构 体内 的 成 员 变 量 进 行 初 始 化 赋值 ， 初 始 化 过 
程 请 参见 代码 清单 12-63。 


代码 清单 12-63 ”第 12 章 \ 程 序 \ 程 序 12-14\ 物 理 平 台 \kernel\schedule.c 


void schedule_init() 


{ 


memset (&task_schedule,0,sizeof (struct schedule)); 
list_init(&task_ schedule.task queue.list); 
task_schedule.task_ queue.vrun time = Ox7fffffffffffffff; 
task_schedule.running task_ count = 1; 
task_schedule.CPU_exec task jiffies = 4; 

} 


在 准备 就 绪 队 列 初 始 化 赋值 时 ， 其 队列 被 初始 化 为 空 ， 但 队列 进程 数量 却 为 1， 这 是 将 内 核 主 程 
序 (通常 也 叫 作 ;idle 进程 ) 作为 一 个 特殊 进程 尘 括 进 准 备 就 绪 队 列 的 缘故 。 当 内 核 主 程序 为 操作 系统 
创建 出 第 一 个 进程 后 ， 它 将 变 为 一 个 空闲 进程 ， 其 作用 是 循环 执行 一 个 特殊 的 指令 让 系统 保持 低 功 耗 
待机 ， 待 到 进程 准备 就 绪 队 列 为 空 时 ， 处 理 器 便 会 去 执行 空闲 进程 。 

准备 就 绪 队 列 头 的 vrun_time 成 员 变 量 在 初始 化 时 被 赋值 为 此 变量 类 型 的 最 大 值 ， 这 个 数值 进程 
暂时 无 法 运行 到 ， 通 过 此 种 方法 我 们 有 时 候 可 避免 一 些 队列 操作 期 间 产 生 的 错误 。 

既然 有 了 队列 初始 化 函数 ,那么 还 应 该 有 配套 的 入 队 函 数 和 出 队 函 数 ， 代码 清单 12-64 是 入 队 函 数 
insert_task_queue 和 出 队 滑 数 get_next_task 的 程序 实现 。 


代码 清单 12-64 ”第 12 章 \ 程 序 \ 程 序 12-14\ 物 理 平 台 \kernel\schedule.c 


struct task_struct xdget_next_tasKk() 

{ 
struct task .struct. * tsk. = NULL; 
if(list_is empty(&task_schedule.task_ queue.list)) 
{ 


return &init task union.task; 
} 
tsk = container_of (list_next (&task_schedule.task_ queue.list),struct 
task_struct,1ist); 
list_del(&tsk->list); 
task_schedule.running task_ count -= 1; 
return tsk; 
} 
void insert task queue(struct task_struct *tsk) 
struct task_struct *tmp = container_ of (list next (&task_schedule.task_ queue.list), 
struct task_struct,1list); 
if(tsk == &init_ task union.task) 
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return ， 


if(list_is_ empty(&task_schedule.task_ queue.list)) 


{} 
else 


{ 


while(tmp->vrun time < tsk->vrun time) 
tmp = container_ of (list next (&tmp->list),struct task_ struct,1list); 


} 


list_adqd to before(&tmp->list,é&tsk->list); 


task_schedule.running_ tas 


} 


整个 出 入 队列 操作 过 程 均 是 基于 struct List 双 向 链表 提供 的 操作 接 
的 操作 过 程 都 会 对 iale 进 程 做 特殊 处 理 。 
至 此 ， 一 个 进程 调度 器 基本 实现 。 下 面 将 进程 调度 模块 的 初始 化 函 


ECount, = YL; 


调整 各 模块 的 初始 化 顺序 ， 如 代码 清单 12-65 所 示 。 
代码 清单 12-65 ”第 12 章 \ 程 序 \ 程 序 12-1 小 物理 平台 \kernel\main.c 


void Start_Kernel (void) 


#if APIC 


APIC_IOAPIC_ init(); 


#else 

init_8259A(); 
#endif 
color_printk (RED, 
schedule_init(); 
COolor_printk (RED, 
SOftiRoTTt 
color_printk (RED, 
timer_init(); 
color_printk (RED, 
HPET_init(); 
color_printk (RED, 
task_init(); 
while(1) 


B 


B 


B 


B 


B 


LAC 


LACK," 


LACK," 


LACK, 


LACK, 


schedule init \n"); 


Soft IRQ init \n"); 


"Timer init \n"); 


"HPET init \n"); 


task init NT) 


口 完 成 的 。 而 且 ， 出 入 队列 


数 择 入 到 内 核 主 程序 ， 并 适当 


内 核 主 程序 将 定时 器 等 模块 的 初始 化 时 机 延 后 ， 是 为 了 保证 在 HPET 忆 片 产 生 定时 中 断 前 ， 


模块 已 经 初始 化 完 


iC 


与 此 同时 ， 这 里 还 启用 了 init 进 程 。 


在 init 进 程 被 屏蔽 的 这 段 时 


。 鉴 于 目前 的 1qle 进 程 尚 未 完成 ， 目 前 它 还 不 能 进入 中 止 ; 


间 里 


二 ， 


的 系统 功能 。 那 么 在 使 用 它 前 ， 应 该 为 其 追加 这 些 新 功能 ， 首 当 其 冲 的 就 是 为 


址 空间 ， 实 现代 码 如 代码 清单 12-66。 


状态 。 
它 已 经 错过 许多 新 引入 


其 他 


过 


分 配 独立 的 应 有 


月 层 地 
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代码 清单 12-66 第 12 章 \ 程 序 \ 程 序 12-14\ 物 理 平台 \kernel\task.c 
unsigned long do_execve(struct pt_regs * regs) 
{ 
unsigned long addr = 0x800000; 
unsigned long * tmp; 
unsigned long * virtual = NULL; 
struct Page * p = NULL; 
regs->rdx = 0x800000;，; //RIP 
regs->rcx = 0xa00000; //RSP 
regs->rax = 1; 
regs->ds = 0; 
regs->es = 0; 
Color_printk (RED,BLACK, "do_execve task is running\n"); 
Global_CR3 = Get_gdt (); 
tmp = Phy_To_Virt((unsigned long *) ((unsigned long)Global_CR3 & (~ 0xfffUL)) + 
((addr >> PAGE_ GDT_SHIFT) & Oxlff)).; 
virtual = kmalloc (PAGE_ 4K_SIZE,0); 


set_mpl4t (tmp,mk_mpl4t (Virt_To_Phy (virtual),PAGE USER_GDT)); 

tmp = Phy_To_Virt((unsigned long *) (*tmp & (~ OxfffUL)) + ((addr >> PAGE_1G_SHIFT) 
& Oxlff)); 

Virtual = kmalloc (PAGE 4K_SIZE,0); 

set_pdpt (tmp,mk_pdpt (Virt_To_Phy (virtual),PAGE_USER_ Dir)); 

tmp = Phy_To_Virt((unsigned long *) (*tmp & (~ OxfffUL)) + ((addr >> PAGE 2M_SHIFT) 
& Oxlff)); 

p = alloc pages (ZONE_NORMAL,1,PG_ PTable_ Maped); 

set_pdt (tmp,mk_pdt (p->PHY_address, PAGE_USER_Page)); 

flush_ tlb(); 


if(!(current->flags & PF_KTHREAD)) 
current->addr_limit = Oxffff800000000000; 


代码 清单 12-66 为 init 进 程 分 配 了 独立 的 页 表 和 物理 页 ， 这 使 得 jnit 进 程 在 应 用 层 拥 有 2 MB 的 独 
立地 址 空间 ， 起 始 地 址 依然 是 0x800000。 为 了 区 分 内 核 线程 与 普通 进程 ，do_execve 函 数 还 加 入 了 
进程 地 址 空间 的 限制 代码 。 

经 过 此 番 配 置 后 ，init 进 程 虽然 已 拥有 独立 的 应 用 层 地 址 空间 , 但 系统 还 未 将 其 加 入 到 准备 就 绪 
队列 。 代 码 清单 12-67 中 的 ao_fork 函 数 负 责 将 进程 (包括 init 进 程 ) 插入 到 进程 准备 就 绪 队 列 ， 同 
时 还 对 init 函 数 、 switch_to 函 数 以 及 task_init 捕 数 内 的 多 处 程序 进行 相应 调整 ， 以 保证 程序 
可 通过 编译 链接 。 


代码 清单 12-67 第 12 章 \ 程 序 \ 程 序 12-14\ 物 理 平台 \kernel\task.c 
unsigned long init (unsigned long arg) 


current->flags = 0; 


unsigned long do_fork(struct pt_regs * regs, unsigned long clone flags, unsigned long 
stack_start, unsigned long stack_size) 


{ 
tsk->priority = 2; 
memset (thd,0,sizeof (*thd)); 
insert_task queue (tsk); 
return 1; 
} 
inline void _ switch tol(struct task_struct *prev,struct task_struct *next) 
{ 


set_tss64(TSS64_ Table,init tss[0] .rsp0, init tss[0] .rspl, init_ tss[0] .rsp2, 
Tn tes[0). Listl, Tmit eS) Lot Tnito GSB].rLSt3, LAt es].LEt4,, 
Tt tse[0] LetSs Tit Ges[0] Lest6s Nrt tes[0] LSet 


} 
void task_init() 
{ 
Struct. task struct. tnp e NULL: 
// init_thread,init tss 
set_tss64(TSS64_ Table,init thread.rsp0, init tss[0] .rspl, init_ tss[0] .rsp2, 
Li SelOl Lt Unitotsst0l Bet Tintetssl[0l. Teta LNCSell0l Tet 
nt asl Loto, TnitSess[0l LSet6. NH TnLt CSO et) 
tmp = Container of (list next (&task_schedule.task_ queue.list),struct 
task struct, Tist}3 
switch_ tol(current,tmp); 
下 
经 过 对 init 进 程 创建 过 程 的 层 层 修改 ,此 时 的 它 已 通过 编译 器 的 编译 链接 过 程 ， 但 其 运行 效果 却 


仍 不 尽 如 人 意 ， 图 12-35 是 操作 系统 目前 的 运行 效果 之 一 。 


ded Mode )00002 ,Pro bs ( ) 


)00000000000 
)000001014, bi 
)00000000001 
)00000000000004 d 
Ox000000001fe00000,p 
>) 0000001fe00000,p 


x000000009a600000,T 


Ox000000011e600000, 


:0x0000000000000001 


000000000000001 


00000000001ffff 
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此 处 之 所 以 把 图 12-35 称 为 运行 效果 之 一 , 是 由 于 当前 的 操作 系统 运行 效果 不 固定 ， 有 了 时候 操作 
系统 其 至 会 无 故 自 动 重启 。 其 中 最 为 普遍 的 现象 是 程序 在 执行 过 程 中 仿佛 被 某 种 功能 暂停 ， 无 法 继 
续 执 行 。 

经 过 反复 思考 、 推 理 和 论证 ， 发 现在 鼠标 设备 初始 化 期 间 ， 和 鼠标 设备 会 向 Intel 8042 键 盘 控 制 器 发 
送 应 答 数 据 ( 0xFA )， 又 因为 现在 的 color_printk 函 数 拥有 Pos .printk_lock 自 旋 锁 。 如 果 处 理 器 
在 执行 color_printk 函 数 期 间 ， 接 收 到 来 自 鼠 标 设备 的 中 断 请 求 ， 那 么 处 理 右 会 立即 执行 鼠标 中 断 
处 理 琐 数 。 当 color_printk 函 数 在 没有 解锁 的 前 提 下 ， 再 次 被 鼠标 中 断 处 理 函 数 调用 ， 这 势必 会 引 
发 死 锁 现象 。 

从 这 个 现象 引申 出 的 死 锁 问题 ， 还 请 读者 在 今后 的 编程 过 程 中 特别 注意 : 如 果 某 段 内 核 程 序 需要 
使 用 自 旋 锁 ， 那 么 我 们 一 定 要 在 引入 自 旋 锁 前 考虑 中 断 处 理 程序 是 否 会 竞争 自 旋 锁 。 和 否则 ， 中 断 请 求 
可 能 会 打 断 正在 持 有 自 旋 锁 的 内 核 程序 ， 并 试图 征用 已 被 持 有 ( 上 锁 ) 的 自 旋 锁 。 这 样 一 来 ， 中 断 处 
理 程 序 将 一 直 征 用 这 个 不 能 被 释放 的 自 旋 锁 ， 最 终 导 致死 锁 现 象 的 发 生 。 如 果 中 断 请 求 发 生 在 不 同 的 
处 理 器 上 ,那么 即使 中 断 处 理 程序 与 内 核 代 码 (运行 于 其 他 处 理 器 中 ) 同时 征用 自 旋 锁 ， 也 不 会 发 生 
死 锁 现象 。 

虽然 禁止 本 地 中 断 可 避免 此 类 死 锁 现象 的 发 生 ， 但 本 系统 调用 color_printk 男 数 过 于 频繁 。 如 
果 频 繁 禁用 中 断 ， 不 但 影响 外 设 中 断 的 响应 速度 ， 还 可 能 会 影响 程序 的 执行 效果 。 而 且 ， 帧 缓存 区 的 
操作 过 程 ， 也 并 不 像 操 作 某 些 数据 结构 那样 必须 严格 限制 访问 顺序 ， 对 于 显示 信息 的 错位 现象 ， 目 前 
尚 可 容 礼 。 因 此 ， 这 里 暂且 通过 增加 color_printk 也 数 操作 自 旋 锁 的 限制 条 件 来 解决 自 旋 锁 竞 争 问 
题 ， 即 在 中 断 处 理 程序 调用 color_printk 函 数 时 ，color_printk 子 数 不 再 竞争 自 旋 销 资源 ， 此 举 
虽 牺 牲 了 一 些 日 志 信息 的 连续 性 ， 但 可 在 避免 死 锁 现 象 (暂时 避免 ) 的 同时 ,准确 记 录 下 中 断 触 发 的 
时 间 点 。 代 码 清单 12-68 是 自 旋 锁 限 制 条 件 的 插入 位 置 。 


代码 清单 12-68 ”第 12 章 \ 程 序 \ 程 序 12-15\ 物 理 平台 \kernel\printk.c 


int color_ printk(unsigned int FRcolor,unsigned int BKcolor,const char * fmt,...) 


if(get_rflags() & Ox200UL) 
{ 


spin_lock(&Pos.printk_ lock); 


if(get_rflags() & Ox200UL) 
' 


spin unlock(&Pos.printk_lock); 
) 
return i; 


} 

这 上段 程序 借助 函数 get_rf1ags 取 得 RFLAGS 标 志 寄 存 器 值 ， 青 通过 检测 RFLAGS.IF 标 志 位 来 确 
定 color_printk 函 数 的 调用 者 是 否 为 中 断 处 理 程序 。get_rflags 函 数 的 定义 位 于 1ib.h 中 , 它 通过 
汇编 指令 PUSHE 将 RFLAGS 标 志 寄 存 器 值 压 人 栈 中 ， 从 而 取得 正 标志 位 的 状态 值 ， 详 细 程序 实现 还 请 
读者 参考 源码 自行 阅读 。 

为 了 尽量 减少 多 核 处 理 髓 并 行 显示 日 志 信 息 的 杂乱 效果 , 这 里 还 将 中 断 使 能 延 后 至 init 进 程 创 建 


496 第 12 章 进程 管理 


前 ， 代 码 清单 12-69 和 代码 清单 12-70 描 述 了 中 断 使 能 的 延 后 位 置 。 
代码 清单 12-69 ”第 12 章 \ 程 序 \ 程 序 12-15\ 物 理 平台 \kernel\APIC.c 


Volid APIC_IOAPIC_ init() 


代码 清单 12-70 ”第 12 章 \ 程 序 \ 程 序 12-15\ 物 理 平台 \kernel\main.c 
void Start_Kernel (void) 


color_printk (RED,BLACK, "HPET init \n"); 
HPET_init(); 

SCE (3 

Color_printk (RED,BLACK, "task init \n"); 
task_init(); 


除 上 述 两 段 程序 外 ， 还 应 该 移 除 get_cmos_time 函 数 里 的 中 断 使 能 代码 ， 移 除 后 的 代码 请 参见 


time.c 文 件 。 


尽管 本 系统 已 经 在 第 5$ 章 借助 SYSENTER/SYSEXIT 汇 编 指令 实现 


R 速 、 高 效 的 系统 调用 API， 不 过 
这 里 还 需要 补充 一 个 细节 。 由 于 do_fork 函 数 在 每 个 进程 创建 之 初 都 为 它们 分 配 了 独立 的 内 核 层 栈 地 


址 空间 ， 而 且 ， 在 执行 SYSENTER 汇 编 指 令 从 应 用 层 跳 转 至 内 核 层 期 间 ， 处 理 需 要 求 程 序 ( 系统 ) 
处 理 器 提供 内 核 层 的 栈 顶 地 址 (保存 在 MSR 寄 存 器 组 的 I[A32_ SYSENTER_ESP 寄 存 器 内 )。 故 此 ,在 


换 函 数 修改 后 的 样子 。 
代码 清单 12-71 第 12 章 \ 程 序 \ 程 序 12-15\ 物 理 平台 \kernel\task.c 


inline void __ switch tol(struct task_ struct *prev,struct task_struct *next) 


wrmsr (0x175,next->thread->rsp0); 


color_printk (WHITE,BLACK, "prev->thread->rsp0:%#0181x\t",prev->thread->rsp0); 
color_printk (WHITE,BLACK, "prev->thread->rsp :%#018lx\n",prev->thread->rsp); 
color_printk (WHITE,BLACK, "next->thread->rsp0:%#0181x\t",next->thread->rsp0); 
color_printk (WHITE,BLACK, "next->thread->rsp :%#018lx\n",next->thread->rsp); 


} 


为 


进程 切换 时 ,IA32_SYSENTER_ESP 寄 存 带 保 存 的 内 核 层 栈 顶 地 址 必须 更 改 ,代码 清单 12-71 是 进程 切 


这 段 程序 不 仅 向 IA32_ SYSENTER_ESP 寄 存 器 配置 目标 进程 的 内 核 层 栈 顶 地 址 ， 还 将 打印 相关 进 


程 的 内 核 层 栈 地 址 信息 。 


经 过 此 番 修 改 ， 本 系统 可 以 勉强 运行 ， 但 为 了 完美 地 证 明 idqle 进 程 与 init 进 程 之 间 可 以 自 


1 切 


换 ， 下 面 将 关闭 强制 进程 切换 功能 ， 改 用 基于 时 间 片 的 进程 切换 功能 ， 代 码 清单 12-72 是 屏蔽 掉 的 进程 


强制 切换 代码 。 


代码 清单 12-72 ”第 12 章 \ 程 序 \ 程 序 12-15\ 物 理 平台 \kernel\task.c 


void task_init() 


// tmp = container_ of (list_ next (&task queue.list),struct task_struct,list); 


// switch tol(current,tmp); 


} 
如 果 此 刻 运行 本 系统 ， 昌 然 处 理 器 偶尔 会 触发 异常 ， 但 这 个 异常 却 并 不 影响 系 


调度 。 经 过 揽 思 音 想 ,我 们 最 终 发 现 此 异常 并 非 由 BSP 处 理 吉 触发 ， 而 是 由 AP 处 理 器 触发 。AP 处 理 器 


( Local APICID= 1 ) 执行 完 BSP 处 理 器 发 送 来 的 IPI 消 息 后 ， 会 在 中 断 处 理 程序 返回 


列 原因 造成 AP 处 理 噩 在 进入 调度 模块 时 触发 异常 。 
解决 这 个 异常 问题 非常 简单 ， 只 需 将 AP 处 理 器 的 PCB 空 间 清 零 即 可 , 实现 代码 


代码 清单 12-73 ”第 12 章 \ 程 序 \ 程 序 12-15\ 物 理 平台 \kernel\SMPc 


void Start_SMP() 


memset (current,0,sizeof (struct task_struct)); 
load_TR(10 + (global_i -1)* 2);，; 


统 的 正常 运行 以 及 


时 判断 进程 是 否 需 


TT 
要 调度 ， 此 时 的 AP 处 理 器 尚未 构建 PCB， 而 且 硬 件 平台 每 次 上 电 后 的 物理 内 存 值 均 是 随机 的 ， 这 一 系 


如 代码 清单 12-73 。 


透 过 这 个 异常 现象 我 们 应 该 明白 ， 在 使 用 内 存 前 应 该 先 对 其 初始 化 ， 否 则 很 可 能 造成 代码 运行 结 


果 有 误 等 情况 。 
图 12-36 记 录 了 此 次 修改 后 的 系统 运行 效果 , 这 是 系统 在 某 一 瞬间 的 运行 效果 ， 
核定 时 器 )、 键 盘 、 鼠 标 等 设备 的 中 断 效 果 ， 又 有 进程 切换 效果 。 


[| 
)000001f 


图 12-36 ”进程 调度 功能 的 运行 效果 图 2 


其 中 既 有 HPET( 内 
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随 着 系统 功能 和 代码 量 的 不 断 增 大 ， 相 继 出 现 的 问题 已 经 无 法 单 凭 阅读 代码 就 能 解决 ， 必 须 结合 
程序 运行 时 的 日 志 信息 做 深入 分 析 。 而 且 ， 由 于 调试 系统 内 核 的 工具 和 方法 都 比较 少 ， 这 使 得 系统 内 
核 的 调试 过 程 相 比 应 用 软件 困难 许多 。 


12.4 ”内 核 同 步 方法 


不 管 是 对 称 多 处 理 器 系统 结构 SMP ， 还 是 非 对 称 多 处 理 器 系统 结构 ASMP， 它 们 都 面临 着 共享 资 
源 的 竞争 问题 。 如 果 不 能 妥善 处 理 好 共享 资源 的 竞争 问题 ， 多 核 处理 器 很 可 能 会 同时 苋 争 共享 资源 ， 
从 而 导致 共享 数据 不 一 致 ， 甚 至 造成 系统 朋 溃 。 

在 单 核 处 理 器 时 代 ， 只 有 收 到 中 断 请 求 或 者 显 式 调度 进程 时 ， 处 理 器 才 有 机 会 访问 共享 资源 。 只 
要 禁止 中 断 及 调度 抢占 便 可 避免 竞争 共享 资源 。 

可 是 进入 多 核 处 理 器 时代， 资源 兖 争 现 象 无 时 不 刻 都 在 发 生 ， 高 速 运行 的 处 理 器 组 在 无 保护 措施 
的 情况 下 通过 临界 区 代码 ( 操作 共享 数据 的 代码 段 ) 操作 共享 资源 是 非常 不 安全 的 ， 这 很 容易 造成 共 
享 数据 的 并 行 、 乱 序 覆盖 。 如 果 能 够 保证 “原子 ”的 操作 共享 资源 ， 则 可 有 效 避 免 这 种 现象 的 发 生 。 
本 节 将 会 实现 原子 变量 和 信号 量 两 种 机 制 来 保证 “原子 ”的 操作 共享 资源 。 


总 


12.4.1 原子 变量 


原子 变量 ， 顾 名 思 义 它 如 同 “ 原 子 ” 一 样 是 个 不 可 分 割 的 整体 ， 对 原子 变量 的 操作 无 法 分 解 成 多 
个 步骤 ， 并且 原 子 变量 的 操作 过 程 无 法 被 中 断 /异常 打 断 。 

代码 清单 12-74 是 原子 变量 的 类 型 定义 ， 从 原子 变量 的 类 型 定义 来 看 , 原子 变量 与 长 整 型 变量 并 无 
区 别 ， 它 只 是 在 长 整 型 变量 的 基础 上 进行 了 二 次 封装 。 


代码 清单 12-74 ”第 12 章 \ 程 序 \ 程 序 12-16\ 物 理 平台 \kernel\atomic.h 


typedef struct 
{ 


__volatile _ long value; 
} atomic_T; 


虽然 原子 变量 仅 是 一 个 普通 的 长 整 型 变量 , 但 原子 变量 的 操作 过 程 却 不 像 整 型 变量 那 般 简单 ， 即 
便 是 加 、 减 、 乘 、 除 等 基础 运算 符 也 无 法 保证 操作 的 原子 性 。 为 了 达到 原子 操作 的 目的 ， 就 必须 借助 
特殊 的 操作 函数 才能 实现 操作 的 原子 性 , 代码 清单 12-75 是 本 系统 为 原子 变量 实现 的 一 系列 操作 接口 。 


代码 清单 12-75 ”第 12 章 \ 程 序 \ 程 序 12-16\ 物 理 平台 \kernel\atomic.h 


inline void atomic add(atomic_T * atomic,long value) 
{ 


asm _ __volatile _ ( eed: addq SG $0 NRLN GN 

:"=m" (atomic->value):"r"(value):"memory" 
3 

} 

inline void atomic_ subl(atomic_T *atomic,long value) 

{ 

_asm _ volatile _ ( "lock subq SG; $0 NENEY 

:"=m" (atomic->value):"r"(value):"memory" 
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3 
} 
inline void atomic_ inc(atomic_T *atomic) 
{ 
_asm _ volatile _ ( FLOCK Incd $0 NTsx 志 2 
=m" (atomic->value):"m" (atomic->value) :"memory" 
ee 
} 
inline void atomic_ dec(atomic_T *atomic) 
* 
_asm _ volatile _ ( "lock decq $0 NAN 
=m" (atomic->value):"m" (atomic->value) :"memory" 
); 
} 


从 这 4 个 原子 变量 的 操作 接口 可 以 看 出 ， 为 了 保证 函数 操作 原子 变量 的 原子 性 ， 上 述 操作 接口 都 
采用 LocK 指 令 前 级 来 修饰 主体 操作 指令 。 其 实 ， 这 些 操 作 接 口 与 加 、 减 、 乘 、 除 等 运算 符 使 用 的 汇编 
指令 相同 或 相似 ， 而 操作 接口 的 关键 点 在 于 它们 有 LoOcK 指 令 前 绥 的 修饰 ， 以 至 于 处 理 器 在 执行 主体 指 
令 时 会 锁 住 硬件 系统 平台 的 前 端 总 线 ， 从 而 防止 其 他 处 理 器 访问 物理 内 存 。 

函数 atomic_set_mask 和 atomic_clear_mask 用 于 操作 原子 变量 的 位 , 两 种 的 实现 过 程 与 上 述 
4 个 操作 接口 相似 ， 请 读者 自行 阅读 。 


12.4.2 ”信号 量 


信和 号 量 是 一 种 休眠 锁 ， 它 通常 用 于 管理 系统 资源 。 当 进程 试图 拥有 一 个 无 空闲 资源 的 信号 量 时 ， 
此 进程 将 被 信号 量 休眠 ， 并 将 此 进程 加 入 到 信号 量 内 部 的 等 待 队 列 中 ,直至 信号 量 有 空闲 资源 时 再 将 
这 个 进程 从 等 待 队列 中 唤醒 。 虽 然 进程 调度 过 程 会 有 一 部 分 时 间 开 销 ， 但 总 比 自 旋 锁 的 忙 等 待 要 高 效 
得 多 。 


代码 清单 12-76 中 的 semaphore_T 是 本 系统 为 信号 量 定义 的 变量 类 型 ， 这 里 使 用 结构 体 来 描述 信 
号 量 ， 其 中 包括 统计 资源 的 原子 变量 counter 和 一 个 等 待 队 列 wait ( 变量 类 型 为 vait_queue_T )。 
代码 清单 12-77 是 等 待 队列 的 变量 类 型 描述 ， 它 的 成 员 变 量 tsk 用 于 记录 被 挂 起 的 进程 ， 而 成 员 变 量 
wait_1ist 则 是 一 个 链接 所 有 挂 起 进程 的 双向 链表 。 


代码 清单 12-76 第 12 章 \ 程 序 \ 程 序 12-16\ 物 理 平台 \kernel\semaphore.h rT 


typedef struct 
{ 


atomic_T counter; 

wait_queue_T wait; 
} semaphore_T; 
void semaphore_init (semaphore_T * semaphore,unsigned long count) 
{ 

atomic_set (&semaphore->counter,count); 

wait_queue_ init(&semaphore->wait,NULL); 
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代码 清单 12-77 第 12 章 \ 程 序 \ 程 序 12-16\ 物 理 平台 \kernel\semaphore.h 


typedef struct 
{ 
struct List wait_ list; 
struct task_struct *tsk; 
} wait_qaqueue_T; 


void wait_queue_ init (wait queue_T * wait queue,struct task_struct *tsk) 


{ 
list_init(&wait queue->wait_list); 
wait_ queue->tsk = tsk; 


} 


semaphore_init 和 wait_queue_init 是 信号 量 和 等 待 队 列 的 初始 化 函数 。 信 号 量 初始 化 函数 
semaphore_init 的 参数 count 用 于 设置 信号 量 拥有 的 资源 数量 ; 等 待 队列 初始 化 函数 
wait_queue_init 的 参数 tsk 负 责 记 录 待 挂 起 进程 的 PCB， 当 进程 从 准备 就 绕 队 列 移出 后 ,将 交 由 信 


号 量 的 等 待 队 列 去 维护 。 


为 了 实现 信号 量 的 操作 接口 ， 我 们 不 光 要 借助 等 待 队列 的 双向 链表 去 链接 每 个 挂 起 进程 ， 还 必须 
使 用 scheaqule 函 数 转让 当前 进程 的 处 理 器 使 用 权 ( 执行 进程 调度 )， 和 友人 


实现 了 一 对 获取 /释放 信号 量 的 操作 接 


瑟 


o 


代码 清单 12-78 第 12 章 \ 程 序 \ 程 序 12-16\ 物 理 平台 \kernel\semaphore.h 


void _ down(semaphore_T * semaphore) 

{ 
wait_queue_T wait; 
wait_queue_ init (&wait,current); 
current->state = TASK_ UNINTERRUPTIBLE; 


list_adqd to before(&semaphore->wait .wait_list,é&wait.wait_ list); 


schedule (); 
} 
void semaphore _ down (semaphore_T * semaphore) 
{ 
if(atomic read(&semaphore->counter) > 0) 
atomic_ decl(&semaphore->counter); 
else 
__gdown(semaphore); 


} 


代码 清单 12-79 ”第 12 章 \ 程 序 \ 程 序 12-16\ 物 理 平台 \kernel\semaphore.h 


void _ up(semaphore _T * semaphore) 


{ 


wait_queue_T * wait = container of (list next (&semaphore->wait.wait_list), 


wait_queue_ T,wait_ list); 
list_del (&wait->wait_list); 
wait->tsk->state = TASK_RUNNING; 
insert_task_ queue (wait->tsk); 
} 
void semaphore up (semaphore T * semaphore) 


{ 


if(list_is_ empty (&semaphore->wait.wait_list)) 
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atomic_inc(&semaphore->counter); 
else 
__up(semaphore); 


} 

这 两 段 代 码 中 的 函数 semaphore_dqown 用 于 获取 信和 号 量 拥 有 的 资源 ， 如 果 信 和 号 量 目前 无 空闲 资 
源 ， 那 么 执行 “down 函 数 将 当前 进程 (设置 为 不 可 中 断 状态 TASK_UNINTERRUPTIBLE ) 加 入 到 等 待 
队列 中 ， 再 通过 schedule 卫 数 转让 处 理 器 的 使 用 权 。 函 数 semaphore_up 用 于 释放 信和 号 量 拥有 的 资 
源 ， 如 果 在 信号 量 释放 过 程 中 发 现 等 待 队 列 仍 有 挂 起 进程 ， 则 调用 __up 函 数 唤醒 等 待 队列 内 的 挂 起 进 
程 (设置 为 运行 状态 TASK_RUNNING )， 并 把 进程 插入 到 准备 就 绪 队 列 以 待 调度 。 


12.4.3 ”完善 自 旋 锁 


由 于 本 系统 已 经 支持 抢占 功能 ， 这 使 得 进程 可 在 任何 时 刻 被 更 高 优先 级 的 进程 剥夺 执行 权 。 设 想 
一 下 ， 如 果 一 个 进程 在 访问 共享 资源 期 间 被 另 一 个 进程 抢占 ， 那 么 这 两 个 进程 就 存在 着 访问 同一 共享 
资源 的 可 能 性 ， 从 而 导致 系统 存在 诸多 隐患 。 

为 了 避免 隐患 的 产生 ，Linux 使 用 自 旋 锁 来 标记 非 抢占 区 域 ， 即 在 持 有 自 旋 锁 期 间 关 闭 抢 占 功 能 ， 
直至 释放 自 旋 锁 为 止 。 考 虑 到 一 个 进程 可 能 会 同时 持 有 多 个 自 旋 锁 ， 因 此 应 该 使 用 一 个 计数 变量 来 记 
录 持 有 自 旋 锁 的 数量 ， 而 不 是 通过 一 个 标志 位 来 指示 。 按 照 这 个 设计 思想 ， 代 码 清单 12-80 向 PCB 追 加 
计数 变 量 preempt Counto 


代码 清单 12-80 ”第 12 章 \ 程 序 \ 程 序 12-16\ 物 理 平台 \kernel\task.h 


struct task_struct 
volatile long state; 
unsigned long flags; 
long preempt_count; 
long signal; 


因为 这 个 计数 变量 插入 到 了 原 signal 成 员 变 量 的 位 置 , 所 以 entry.S 文 件 中 定义 的 符号 常量 也 必须 
做 出 相应 调整 ， 代 码 清单 12-81 是 调整 后 的 样子 。 中国 
代码 清单 12-81 第 12 章 \ 程 序 \ 程 序 12-16\ 物 理 平台 \kernel\entry.S 


////struct task_struct member offset 


TSK_STATE = 0x00 
TSK_FLAGS = 0x08 
TSK_PREEMPT = 0x10 
TSK_SIGNAL 0x18 


经 过 上 述 调整 , 现在 将 为 系统 追加 抢占 功能 的 检测 代码 。 代 码 清 单 12-82 已 将 抢占 检测 代码 插入 到 
中 断 处 理 程序 的 返回 模块 内 ， 位 于 调度 检测 代码 前 。 
代码 清单 12-82 第 12 章 \ 程 序 \ 程 序 12-16\ 物 理 平台 \kernel\entry.S 


ret_from exception: 
ENTRY (ret_from intr) 


GET_CURRENT (%rbx) 


Imovd TSK_PREEMPT (S$rbx), Srcx ////check preempt 

cmpq $0, Srcx 

jne RESTORE_ALL 

movgd TSK_FLAGS (S$rbx), Srcx ////try schedule 
softirg handler: 


callqg do_softirqa 
GET_CURRENT (%rbx) 


movg TSK_PREEMPT (%$rbx), Ep ////check preempt 

cmpq 0 Srcx 

jne RESTORE_ALL 

movga TSK_FLAGS (S$rbx), Srcx ////try schedule 
reschedule: 

callqg schedule ////do schedule 

jmp RESTORE_ALL 


只 要 检测 TSK_PREEMPT 宏 常量 对 应 的 自 旋 锁 计数 变量 值 (preempt_count ) 就 可 判断 出 系统 此 
刻 是 否 开 启 抢占 功能 。 当 preempt_count> 0 时 ,说明 当前 进程 正在 持 有 自 旋 锁 ， 那么 系统 将 跳 过 抢 
占 检测 代码 ， 直 接 从 中 断 /异常 处 理 程序 返回 ; 只 有 当 preempt_count = 0 时 ， 系 统 才 会 开启 抢占 功 
能 ， 执 行 抢 占 检 测 代 码 。 

对 自 旋 锁 计数 变量 preempt_count 的 操作 通常 会 在 获取 、 释 放 自 旋 锁 以 及 尝试 获取 自 旋 锁 的 过 
程 中 同步 进行 ， 代 码 清单 12-83 是 自 旋 锁 计数 变量 的 操作 位 置 。 


代码 清单 12-83 ”第 12 章 \ 程 序 \ 程 序 12-16\ 物 理 平台 \kernel\spinlock.h 


inline void spin lock(spinlock_T * lock) 


{ 


工 


preempt_disable(); 


preempt_enable(); 
} 
inline long Spin trylock(spinlock_T * lock) 
{ 

unsigned long tmp_value = 0; 

preempt_disable(); 

if(!tmp_value) 

preempt_enable(); 
return tmp_value; 


} 
这 段 程序 中 的 函数 preempt_enable 和 preempt_disable 封 装 了 自 旋 锁 计 数 变量 的 操作 代码 ， 
完成 的 函数 封装 实现 请 看 代码 清单 12-84。 


代码 清单 12-84 ”第 12 章 \ 程 序 \ 程 序 12-16\ 物 理 平台 \kernel\preempt.h 


#define preempt_enable() 
do 
{ 
current->preempt_count--; 
}while(0) 
#define preempt_disable() 
do 
t 
current->preempt_count++; 
}while(0) 


We Yt pe ee 


\ 
N 
\ 
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至 此 ， 自 旋 锁 已 初步 具备 抢占 的 管理 功能 。 为 了 便于 读者 使 用 自 旋 锁 和 信号 量 ， 这 里 再 补充 说 明 
一 下 它们 的 应 用 场景 。 自 旋 锁 与 信号 量 均 可 用 于 管理 资源 ， 在 使 用 自 旋 锁 等 待 资源 的 过 程 中 进程 会 一 
直 处 于 忙 等 待 状态 ， 而 信号 量 则 会 挂 起 当前 进程 ， 为 其 他 进程 让 出 处 理 器 的 使 用 权 。 因 此 ， 自 旋 锁 比 
较 适 合 短 时 间 加 锁 ， 信 号 量 则 更 适合 长 时 间 加 锁 。 自 旋 锁 和 信和 号 量 不 能 同时 使 用 ， 而 且 在 中 断 处 理 程 


序 内 ， 只 能 使 用 自 旋 锁 ， 不 能 使 用 信号 量 。 


特别 注意 ， 由 于 编写 程序 时 的 玻 名 ,我 们 误 将 全 局 变量 定义 在 头 文件 中 ,伴随 着 头 文件 的 多 层 衣 


套 ， 最 终 导 致 编译 链接 后 的 程序 增 大 许多 ， 


而 且 无 法 在 物理 平台 中 正常 运行 。 为 此 ， 特 将 全 


定义 迁移 至 代码 文件 中 ， 也 请 读者 在 编写 程序 时 对 这 个 问题 加 以 重视 。 


12.5 ”完善 进程 管理 单元 


虽然 目前 多 核 处 理 融 的 引导 模块 、 进 程 


局 变量 的 


调度 模块 已 实现 ， 但 它们 此 刻 还 仅仅 是 两 个 独立 的 个 体 ， 


无 法 让 进程 运行 于 AP 处 理 器 中 。 那 么 , 本章 的 剩余 篇 幅 将 把 这 两 个 功能 模块 整合 起 来 ， 让 进程 可 以 正 


常 运行 在 所 有 处 理 吉 内 。 


在 通常 情况 下 ， 多 核 操作 系统 中 的 每 个 处 理 器 都 会 拥有 独立 的 准备 就 绪 队 列 及 idle 进 程 ， 每 个 处 
理 器 都 运行 着 各 自 准 备 就 绪 队 列 中 的 任务 。 在 多 核 操 作 系统 运行 期 间 ， 一 旦 某 些 处 理 器 探测 到 自身 的 
i 绪 队列 内 的 部 分 进程 迁移 至 相对 空闲 的 处 理 器 中 , 使 


负载 过 重 ， 它 们 便 会 尝试 通过 一 些 手段 将 准备 训 


得 所 有 处 理 需 的 负载 相对 均衡 ， 这 其 中 自然 会 涉及 进程 与 CPU 的 亲 和 性 、 处 理 咒 缓存 与 物理 内 存 的 同 


步 等 概念 和 问题 。 尽 管 本 系统 和 暂 上 且 无 法 实现 处 到 


是 一 个 非常 重要 的 功能 。 


器 的 负载 均衡 ， 但 负载 均衡 对 于 多 核 操作 系统 而 言 却 


就 本 操作 系统 而 言 ， 若 使 AP 处 理 咒 可 以 正常 工作 ,我们 首先 要 完善 AP 处 理 器 的 系统 运行 环境 以 


及 进程 运行 环境 ， 然 后 再 为 每 个 处 理 器 建立 准备 就 绪 队 列 。 下 面 


12.5.1 完善 PCB 与 处 理 器 运行 环境 
数组 init_task 和 数组 init_tss 记 录 着 每 个 处 理 器 的 任务 状态 段 数据 和 :idle 进程 的 PCB ， 它 们 虽 


我 们 先 从 处 理 器 硬件 环境 的 配置 工作 姑 


将 按 此 步 又 去 完善 多 核 操 作 系统 。 


早 在 4.8.2 节 就 已 建立 ， 可 是 一 直 以 来 却 只 作为 一 个 变量 使 用 ， 现 在 终于 到 了 它们 发 挥 完全 作用 的 时 刻 。 


F 始 着 手 。 第 一 步 则 是 配置 各 处 理 


E 帮 的 TSS 描 述 符 及 


其 段 空 


间 数 据 。 经 过 代码 回 读 ， 发 现 BSP 处 理 器 使 用 的 init_tss[0] 变 量 未 曾 担任 着 记录 TSS 数 据 的 角色 ， 
而 真正 起 作用 的 是 rss64_Table 那么 , 现在 应 该 释放 TSSs64_Table 存 储 空间 , 改 用 变量 init_ 


tss[0] 
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保存 ， 代 码 清单 12-85 和 代码 清单 12-86 用 于 删除 rss64_Table 空 间 ， 并 使 用 变量 init_tss[0] 取 代 。 
代码 清单 12-85 “第 12 章 \ 程 序 \ 程 序 12-17\ 物 理 平台 \kernel\gate.h 


//extern unsigned int TSS64_ Table[26]; 


代码 清单 12-86 ”第 12 章 \ 程 序 \ 程 序 12-1 孜 物理 平台 \kernel\head.S 


jne PD Sldt 


setup_TSS64: 


leaq init_tss(%rip), Srdx 
XOLTG Srax, Srax 
XOLTG Srcx, Srcx 
movgd $0Ox89, Srax 
shle $40, Srax 
VA TSS64_Table 
//.globl TSS64_Table 


//TSS64_Table: 


// 


fll L3870 


//TSS64_END: 
代码 清单 12-86 只 修改 了 TSS 描 述 符 的 段 基地 址 ， 而 TSS 结 构 内 的 数据 则 需要 借助 函数 set_tss64 
重新 进行 配置 。 代 码 清单 12-87 负 责 为 各 AP 处 理 器 指派 新 的 TSS 结 构 (init_tss 数 组 的 元 素 )， 并 使 
用 函数 set_tss64 重 新 对 TSS 结 构 内 的 数据 进行 配置 。 
代码 清单 12-87 ”第 12 章 \ 程 序 \ 程 序 12-17\ 物 理 平 台 \kernelvmain.c 


void Start_Kernel (voidi) 


{ 


struct INT_CMD_ REG icr_entry; 

unsigned char * ptr = NULL; 

set_tss64((unsigned int *)&init_ tss[0],_stack_ start, _stack_start, _stack_start, 
Oxffff800000007c00, Oxffff800000007c00, 0xffff800000007c00, 0xffff80000000 7c00, 
Oxffff800000007c00, Oxffff800000007c00, 0xffff800000007c00); 


CoOlor_ Printk(RED;BLACK, "slab. init \n"); 


slab_init(); 

ptr = (unsigned char *)kmalloc(STACK_SIZE,0) + STACK_SIZE; 
( (Struct task_struct *) (ptr - STACK_SIZE))->cpu id = 0; 
init_ tss[0] .istl1l = (unsigned long)ptr; 

init tss[0] .ist2 = (unsigned long)ptr; 

init tss[0] .ist3 = (unsigned long)ptr; 

init tss[0] .ist4 = (unsigned long)ptr; 

init_ tss[0] .ist5 = (unsigned long)ptr; 

init tss[0] .ist6 = (unsigned long)ptr; 

init_ tss[0] .ist7 = (unsigned long)ptr; 


for(lglobal_i = 1l;global 1 < 4;global_ i++) 
{ 


505 


spin_lock(&SMP_ lock); 
ptr 
_stac 


k. 8tart 


((struct task_struct *)ptr)->cpu_id 


memse 

init_tss[global_i].rsp0 = _stack_ start; 
iitse[lolobal i]:replt Sstackr estart; 
init_tss[global_i].rsp2 = _stack_start; 

ptr = (unsigned char *)kmalloc (STACK_SIZE,0) 
((struct task_struct *) (ptr - STACK_SIZE))->cpu_id 
init_ tss[lglobal_i].istl = (unsigned 
init_tss[global_i].ist2 = (unsigned 

init_ tss[global_i].ist3 = (unsigned 

init_ tss[global_i].ist4 = (unsigned 

init_ tss[lglobal_i].ist5 = (unsigned 

init_ tss[global_i].ist6 = (unsigned 
init_tss[global_i].ist7 = (unsigned 


(unsigned char *)kmalloc (STACK_SIZE,0); 
(unsigned long)ptr + STACK_SIZE; 
global_ 


long)}ptr; 
long)ptr; 
LOng)}ptrs 
long)ptr; 
long)ptr; 
long)ptr; 
long)ptr; 


> 


t (&init tss[global_i],0,sizeof (struct tss_struct)); 


+ STACK_SIZE; 
global_i; 


set_tss_descriptor(10 + global i * 2,¢&init tss[global_ i]); 


icr_entry.vector 0x20; 
icr_entry.deliver_mode 
icr_entry.dest_shorthand 


icr_entry.destination.x2apic destination 


ICR_Start_up; 


ICR_No_Shorthand; 


wrmsr (0x830,*(unsigned long *)&icr_ entry); 
wrmsr (0x830,*(unsigned long *)&icr_ entry); 


} 
// while(1); 


global_i; 


//Start-up IPI 
//Start-up IPI 


现在 ， 系 统 不 仅 为 所 有 处 理 器 配备 了 全 新 的 TSS 结 构 及 数据 ,还 特别 为 每 个 处 理 器 分 配 了 新 的 IST 


栈 地 址 空间 来 处 理 异 常 。 其 中 的 代码 ((struct task_struct *)ptr)->cpu_id 
责 记 录 目 标 处 理 器 的 Local APIC ID 号 ， 此 处 的 cpu_iq 是 PCB struct task_struct 新 加 入 的 成 员 变 


global 1 ; 负 


量 ， 它 用 于 记录 进程 当前 所 在 处 理 器 。 代 码 清单 12-88 是 成 员 变 量 cpu_ia 在 struct task_struct 结 


构 体 中 的 定义 位 置 。 


代码 清单 12-88 ”第 12 章 \ 程 序 \ 程 序 12-1 和 物理 平台 \kernelvtask.h 


struct task_struct 

{ 
volatile long state; 
unsigned long flags; 
long preempt_count; 
long signal; 
long cpu_id; 


//CPU ID 
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在 向 struct task_struct 结 构 体 加 入 成 员 变 量 时 ， 一 定 不 要 忘记 在 INIT_TASK 宏 中 追加 初始 化 
代码 ， 代 码 清单 12-89 便 是 为 成 员 变量 cpu_iq 追 加 的 初始 化 程序 片段 。 


代码 清单 12-89 ”第 12 章 \ 程 序 \ 程 序 12-17\ 物 理 平 台 \kernelvtaskh 


#define INIT_ TASK(tsk) \ 
{ \ 
.State = TASK_UNINTERRUPTIBLE, \ 
.flags = PF_KTHREAD, \ 
.preempt_count = 0， \ 
.signal = 0， » 
GB Td. 0 \ 


既然 有 了 cpu_id 成 员 变 量 ， 那 么 系统 若 想 查 询 进 程 所 在 处 理 器 的 Local APIC ID 号 就 变 得 十 分 容 
易 ， 这 仅 需 使 用 代码 current->cpu_igd 即 可 获得 ， 代 码 清单 12-90 是 这 个 查询 过 程 的 代码 封装 。 
代码 清单 12-90 ”第 12 章 \ 程 序 \ 程 序 12-17\ 物 理 平台 \kernel\SMPh 

#define SMP_cpu_id() (current->cpu_id) 

将 此 安 函 数 应 用 到 进程 管理 单元 的 相关 程序 中 ,代码 清单 12-91、 代 码 清单 12-92 和 代码 清单 12-93 
通过 应 用 sSMP_cpu_idq， 进 而 将 init_tss 数 组 的 管理 范围 扩大 至 所 有 处 理 器 。 经 过 此 番 升 级 ，SMP 
系统 结构 下 的 所 有 人 处理 右 均 可 调用 do_fork 了 水 数 与 ”switch_to 也 数 。 由 于 task_init 限 数 是 专 为 
BSP 处 理 需 创建 的 ， 因 此 其 改动 量 相 对 较 小 。 
代码 清单 12-91 ”第 12 章 \ 程 序 \ 程 序 12-1 和 物理 平台 \kernelvtask.c 


void task_init() 


ey 


wrmsr (Ox174,KERNEL CS); 

wrmsr (0x175,current->thread->rsp0); 

wrmsr (0x176, (unsigned long)system call); 

init_ tss[SMP_cpu_id()] .rsp0 = init_ thread.rsp0; 


代码 清单 12-92 第 12 章 \ 程 序 \ 程 序 12-1 孜 物理 平台 \kernel\task.c 


unsigned long do_fork(struct pt_regs * regs, unsigned long clone_ flags, unsigned long 
stack_start, unsigned long stack_ size) 


tsk->cpu_id = SMP_cpu_id(); 


代码 清单 12-93 ”第 12 章 \ 程 序 \ 程 序 12-17\ 物 理 平 台 \kernelvtask.c 


inline void _ switch tol(struct task_struct *prev,struct task_struct *next) 


{ 


unsigned int color = 0; 
init_ tss[SMP_cpu_ idq()].rsp0 = next->thread->rsp0; 
wrmsr (0x175,next->thread->rsp0); 
(ME Gp Te) sa 0) 
olor; .WHITE 
else 
Color = YELLOW; 
Color_printk (color,BLACK, "prev->thread->rsp0:%#0181x\t",prev->thread->rsp0); 
Color_printk (color,BLACK, "CPUID: %#0181x\n",SMP_cpu_id()); 
} 


为 了 便于 观察 执行 进程 切换 的 处 理 器 ， 代 码 清单 12-93 特 意 加 入 两 种 颜色 来 区 分 BSP 处 理 器 和 AP 
处 理 器 ， 其 中 BSP 处 理 器 依然 使 用 白色 字体 ， 而 AP 处 理 器 则 使 用 黄色 字体 。 

至 此 ，PCB 和 处 理 需 运行 环境 的 完善 工作 已 经 接近 尾声 ， 为 了 避免 代码 修改 量 过 大 造成 系统 难于 
调试 ， 下 面 移 来 检测 一 下 系统 是 和 否 能 够 正常 运行 ， 图 12-37 是 其 运行 效果 。 
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图 12-37 系统 运行 效果 图 1 


就 图 12-37 记 录 的 运行 效果 而 言 , 它 与 此 前 的 运行 效果 并 无 太 大 出 入 。 为 了 使 系统 运行 效果 更 加 明 
显 ， 同 时 也 为 了 方便 系统 调试 ， 此 处 已 向 所 有 有 蜡 常 处 理 函数 追加 代码 来 描述 触发 异常 的 处 理 顺 Local 
APIC ID 号 。 现 以 +DE (除法 ) 异常 处 理 函数 为 例 ， 代 码 清单 12-94 是 其 升级 后 的 样子 ， 其 他 异常 处 理 
函数 升级 后 的 模样 名 是 如 此 ， 请 读者 自行 查阅 。 


代码 清单 12-94 第 12 章 \ 程 序 \ 程 序 12-1 八 物理 平台 \kernel\trap.c 


void do_divide error(struct pt_regs * regs,unsigned long error_code) 


{ 


TT 


Color_printk (RED, BLACK, "do_divide error(0),ERROR_ CODE:%#0181x,RSP:%#0181x, 
RIP:%#0181x,CPU:%#0181x\n",error code , regs->rsp , regs->rip , SMP cpu id()); 
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while(1); 
} 


代码 清单 12-95 用 于 测试 异常 处 理 程序 的 运行 效果 ,这 里 特意 限制 异常 的 触发 范围 是 除 Local APIC 


ID=1 以 外 的 所 有 AP 处 理 器 。 对 于 搭载 本 系统 的 物理 平台 而 言 ， 只 有 Local APIC ID 号 为 2 和 3 的 AP 处 理 


器 才 会 触发 异常 。 

代码 清单 12-95 “第 12 章 \ 程 序 \ 程 序 12-17\ 物 理 平 台 \kernel\SMPc 
/71 if (SMP Cpu id() Ta) 
// 六 二 /03 


开启 代码 清单 12-95 和 代码 清单 12-87 注 释 掉 的 程序 ， 便 可 验证 #DE 异 常 处 理 函 数 的 运行 效果 ， 详 
细 运 行 效果 请 参见 图 12-38。 
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图 12-38 ”系统 运行 效果 图 2 


从 图 12-38 可 以 看 出 ， 处 理 器 共 触 发 了 两 次 #DE 异 常 ， 依 据 日 志 信息 的 描述 可 以 确 
常 来 自 于 Local APIC ID 号 为 2 和 3 的 AP 处 理 器 ， 这 与 测试 代码 的 实现 相 吻 合 。 


和 定 这 两 个 #DI 


[ea | 
并 


12.5.2 ”完善 进程 调度 器 和 AP 处 理 器 引导 程序 


经 过 对 PCB 和 处 理 器 运行 环境 的 升级 完善 ,操作 系统 已 初步 具备 在 AP 处 理 器 中 创建 进程 的 能 力 ， 
接 下 来 将 对 进程 调度 器 和 AP 人 处 理 兢 引导 程序 做 进一步 完善 。 
考虑 到 本 系统 是 基于 SMP 系 统 结构 实现 的 ， 进 程 调度 器 应 该 为 每 个 处 理 器 创建 独立 的 准备 就 绪 队 
列 。 故 此 ， 原 全 局 变量 Lask_schedule 将 变更 为 全 局 数组 Lask_schedule [NR_CPUS]。 随 之 而 来 的 
是 调整 进程 调度 器 内 所 有 使 用 到 task_schequle 变 量 的 代码 ， 这 里 仅 罗 列 出 改动 量 较 大 的 
schedule_init 了 因数 ， 请 看 代码 清单 12-96。 
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代码 清单 12-96 ”第 12 章 \ 程 序 \ 程 序 12-18\ 物 理 平台 \kernel\schedule.c 


void schedule_init() 
{ 
守 神 世相 宇 了 过 >-03 
memset (&task_schedule,0,sizeof(struct schedule) * NR_CPUS); 


for(i = 0;i<NR_CPUS;i++) 
list_init(&task_ schedule[i].task_ queue.list); 
task_schedule[i].task queue.vrun time = Ox7fffffffffffffff; 


task_schedule[i].running task_ count = 1; 
task_schedulel[i] .CPU_ exec_ task jiffies = 4; 


} 
代码 清单 12-96 将 每 个 处 理 器 的 准备 就 绪 队 列 都 初始 化 成 相同 值 , 这 是 为 了 保证 SMP 系 统 结构 中 的 
每 个 准备 就 绪 队 列 都 拥有 平等 的 地 位 。 
长 久 以 来 ,经 过 引导 启动 的 AP 处 理 器 都 以 一 个 死 循环 的 HLT 指 令 告终 。 此 刻 ， 既 然 AP 处 理 需 已 拥 
有 进程 准备 就 绪 队 列 ， 那 么 该 是 时 候 为 它 创 建 1iale 进 程 了 。 鉴 于 PCB 与 内 核 层 栈 空 间 共 用 一 段 内 存 ， 
当 BSP 处 理 器 为 AP 处 理 需 创建 内 核 层 栈 空间 时 ， 它 也 就 间接 地 为 PCB 开 辟 了 存储 空间 ， 因 此 可 将 AP 
处 理 器 创建 iale 进 程 的 过 程 看 为 PCB 的 初始 化 过 程 ， 详 细 的 初始 化 代码 如 代码 清单 12-97。 


代码 清单 12-97 第 12 章 \ 程 序 \ 程 序 12-18\ 物 理 平台 \kernel\SMPc 


void Start_SMP() 


Color_printk (RED,YELLOW, "xX2APIC ID:%#010x\t",x); 


Current->state = TASK_RUNNING; 
current->flags = PF_KTHREAD; 
current->mm = &init_mm; 


list_init(&current->list); 
current->addr_limit = Oxffff800000000000; 
current->priority = 2; 


current->vrun time = 0; 

current->thread = (struct thread_struct *) (current + 1); 
memset (current->thread,0,sizeof (struct thread_ struct)); 
current->thread->rsp0 = _stack_ start; 
Current->thread->rsp = _stack_start; 


current->thread->fs = KERNEL_DS; 
current->thread->gs = KERNEL_DS; 
init_task[SMP_cpu_id()] = current; 


load_TR(10 + (global_i -1) * 2); 
spin_ unlock(&SMP_lock); 
Current->preempt_count = 0; 
sti(); 


510 第 12 章 进程 管理 


// if(SMP_ cpu_id() != 1) 
// R= 0 
if (SMP_cpu_id() == 3) 


task_init(); 


while(1) 
hit (); 
} 


这 段 代 码 中 的 current 进 程 指 的 就 是 idle 进 程 ， 当 完成 iale 进 程 的 初始 化 工作 ( 初始 化 struct 
task_struct 与 struct threagd_struct 结 构 体 ) 后 , 不 要 忘记 将 其 保存 到 全 局 数组 init_task 里 。 

由 于 sMP_lock 自 旋 锁 的 加 锁 过 程 和 解锁 过 程 分 别 执行 于 两 个 处 理 器 中 ， 而 且 这 两 个 处 理 器 同时 
运行 着 不 同 的 进程 ,那么 初始 化 后 的 进程 抢占 计数 值 就 不 为 零 ， 这 将 导致 AP 处 理 器 无 法 正常 执行 调度 
代码 。 为 了 解决 这 个 问题 ， 必 须 在 自 旋 锁 解锁 后 将 当前 进程 的 抢占 计数 值 清 零 。 

为 了 验证 AP 处 理 器 能 够 创建 进程 并 执行 进程 调度 ， 这 里 暂时 将 init 进 程 的 创建 函数 task_init 
背 给 AP 处 理 需 使 用 。 但 只 创建 进程 是 不 够 的 ， 还 必须 让 AP 处 理 器 啊 应 中 断 请 求 才能 使 进程 调度 器 执 
行 ， 那么 向 AP 处 理 器 发 送 IPI 消 息 就 是 一 个 不 错 的 选择 。 为 了 让 AP 处 理 右 频繁 收 到 BSP 人 处理 器 发 送 来 
的 IPI 消 息 ， 代 码 清单 12-98 和 暂且 将 HPET 的 中 断 请 求 转发 到 Local APIC ID=3 的 AP 处 理 器 中 。 


代码 清单 12-98 ”第 12 章 \ 程 序 \ 程 序 12-18\ 物 理 平台 \kernel\HPET.c 


void HPET_ handler (unsigned long nr, unsigned long parameter, struct pt_regs * regs) 


{ 


struct INT_CMD REG icr_entry; 
jiffies++; 


memset (&icr_entry,0,sizeof(struct INT_CMD REG)); 
icr_entry.vector = 0xc8; 
icr_entry.dest_shorthand = ICR_No_Shorthang; 
icr_entry.trigger = APIC_ ICR_IOAPIC FEdge; 
icr_entry.dest_mode = ICR_IOAPIC_ DELV_PHYSICAL; 
icr_entry.destination.x2apic destination = 3; 
icr_entry.deliver mode = APIC_ICR IOAPIC Fixed; 
wrmsr (0x830,*(unsigned long *)&icr_ entry); 

// if(task_schedule[SMP_ cpu_id()] .CPU_ exec task jiffies <= 0) 
Ya current->flags |= NEED_SCHEDULE; 


} 
代码 清单 12-98 屏 没 BSP 处 理 器 的 进程 调度 功能 ， 其 目的 是 为 了 减少 过 多 的 日 志 信 息 摊 杂 在 一 起 ， 
以 防 使 得 进程 调度 器 的 运行 效果 难以 辨认 。 为 了 更 好 地 观察 运行 效果 , 这 里 还 相继 屏蔽 了 AP 处 理 器 的 
引导 日 志 信 息 以 及 其 他 日 志 信 息 。 
当 完 成 HPET 中 断 请 求 的 转发 后 ， 还 要 在 IPI 消 息 处 理 函 数 中 追加 进程 虚拟 运行 时 间 统 计 代 人 码 、 处 
理 器 时 间 片 维护 代码 和 相关 日 志 信 息 显示 代码 ， 详 细 程序 实现 请 参见 代码 清单 12-99。 


代码 清单 12-99 第 12 章 \ 程 序 \ 程 序 12-18\ 物 理 平台 \kernel\APIC.c 


void do_IRQO(struct pt_regs * regs,unsigned long nr) //regs:rsp,nr 


{ 


case 0x80: 

Color_printk (RED,BLACK, "SMP IPI:%d\n",nr); 

Local_APIC_edge_level ack (nr); 

task_schedule[SMP_cpu_id()] .CPU_ exec task jiffies -= 2; 

current->vrun time+t++; 

if(task_schedule[SMP_ cpu_ id()] .CPU_ exec_ task_ jiffies <= 0) 
current->flags |= NEED_SCHEDULE; 

Color_printk (RED,BLACK, "CPU_exec task_ jiffies:%d\n",task_schedule[SMP_ cpu_ 
id()] .CPU_exec_ task_ jiffies); 

break; 


通过 本 次 升级 调整 ，AP 处 理 需 已 具备 创建 进程 、 调 度 进程 的 能 力 ， 图 12-39 是 升级 调整 后 的 系统 
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图 12-39 ”系统 运行 效果 图 3 


现在 ，AP 处 理 器 已 具备 创建 进程 和 调度 进程 的 能 力 ， 但 考虑 到 系统 时 间 片 是 由 HPET 提 供 ， 其 中 
断 请 求 无 法 广播 到 所 有 逻辑 处 理 单 元 ， 而 且 Local APIC 定 时 器 目前 尚未 驱动 ， 以 至 于 AP 处 理 器 的 时 间 
片 定 时 器 中 断 请 求 只 能 由 BSP 处 理 器 代为 转发 HPET 中 断 请 求 来 实现 。 
在 实现 AP 处 理 器 的 时 间 片 定时 功能 前 ， 我 们 应 该 先 来 完善 IPI 通 信 机 制 ， 让 IPI 回 量 号 有 明确 的 处 
理 函 数 。 因此 , 系统 特 为 IPI 通 信 机 制 创 建 消 息 注册 与 注销 函数 , 代码 清单 12-100 是 IPI 消 息 的 注册 函数 。 


代码 清单 12-100 第 12 章 \ 程 序 \ 程 序 12-19\ 物 理 平台 \kernel\interrupt.c 


int register_IPI(unsigned long irdq, 
void * arg, 
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void (*handler) (unsigned long nr, unsigned long parameter, struct pt_regs * regs), 
unsigned long parameter, 

hw_int_controller * controller, 

char * irg_ name) 


irg desc_T * p = &SMP_IPI_desc[irg - 200]; 
p->controller = NULL; 
p->irg_name = irq name; 
p->parameter = parameter; 
p->flags = 0; 
p->handler = handler; 
return 1; 
} 
函数 register_IPI 是 参照 设备 中 断 注册 函数 实现 的 。 由 于 IPI 消 息 不 涉及 硬件 设备 的 控制 工作 ， 
所 以 我 们 无 需 向 controllez 成 员 变量 提供 硬件 控制 接口 ， 仅 需 将 IPI 消 息 处 理 函 数 和 消息 处 理 参 数 保 
存 到 SMP_IPI_qesc 数 组 的 元 素 中 即 可 。 
IPI 消 息 的 注销 函数 unregister_IPI 人 负责 清除 SMP_IPI_desc 数 组 的 元 素 ， 它 的 实现 非常 简单 ， 
请 读者 对 比 注册 函数 的 源 代码 自行 阅读 。 
这 里 依然 治 用 IPI 消 息 向 量 号 200 作 为 AP 处 理 器 的 时 间 片 定时 器 中 断 向 量 号 ,代码 清 单 12-101 是 IPI 
消息 处 理 函 数 的 注册 过 程 。 


代码 清单 12-101 第 12 章 \ 程 序 \ 程 序 12-1%\ 物 理 平 台 \kernelNSMPc 


Volid SMP_ init() 


memset (SMP_IPI_ desc,0,sizeof (irqg desc_T) * 10); 
register_IPI(200,NULL,é&IPI_ 0x200,NULL,NULL, "IPI Ox200"); 
} 


这 上段 代码 通过 调用 register_IPI 清 数 向 操作 系统 注册 IPI 向 量 号 200 的 消息 处 理 函 数 IPI_ 
0x200。 此 处 的 IPI 消 息 处 理 函数 IPI_0x200 是 从 HPET 中 断 处 理 函 数 中 抽 离 出 的 进程 虚拟 运行 时 间 统 
计 代 码 和 处 理 器 时 间 片 维护 代码 ， 详 细 代 码 实现 如 代码 清单 12-102。 


代码 清单 12-102 ”第 12 章 \ 程 序 \ 程 序 12-1%\ 物 理 平 台 \kernelNSMPc 


void IPI_0x200 (unsigned long nr, unsigned long parameter, struct pt_regs * regs) 


{ 


Switch (current->priority) 
{ 

case 0: 

case 1: 
task_schedule[SMP_cpu_id()] .CPU_ exec task jiffies--; 
current->vrun time += 1; 
break; 
case 2: 
default: 
task_schedule[SMP_cpu_id()] .CPU_ exec task jiffies -= 2; 
current->vrun_ time += 2; 
break; 


If(task_schedqule[SMP_cpu_idq()].CPU_exec_task_Jjiffies <= 0) 
current->flags |= NEED_SCHEDULE; 
} 


当 AP 处 理 器 的 时 间 片 定时 功能 准备 就 绪 后 ， 下 一 步 将 调整 HPET 的 中 断 处 理 函 数 ， 从 而 将 IPI 消 息 
广播 到 所 有 AP 处 理 器 ， 详 细 代 码 修改 片段 如 代码 清单 12-103。 


代码 清单 12-103 ”第 12 章 \ 程 序 \ 程 序 12-19\ 物 理 平台 \kernel\HPET.c 
void HPET_ handler (unsigned long nr, unsigned long parameter, struct pt_regs * regs) 


memset (&icr_entry,0,sizeof (struct INT_CMD_REG) ) ; 
icr_entry.vector = 0xc8; 
icr_entry.dest_shorthand = ICR_ ALL EXCLUDE_ Self; 
icr_entry.trigger = APIC_ ICR_IOAPIC Edge; 
icr_entry.dest_mode = ICR_IOAPIC_ DELV_PHYSICAL; 
icr_entry.deliver _ mode = APIC_ICR_ IOAPIC Fixed; 
wrmsr (0x830,*(unsigned long *)&icr_ entry); 
if(task_schedule[SMP_cpu_id()] .CPU_ exec task jiffies <= 0) 
current->flags |= NEED_SCHEDULE; 


} 
代码 清单 12-103 不 但 实现 IPI 消 息 的 广播 功能 , 同时 还 开启 BSP 处 理 器 的 进程 调度 功能 , 这 样 一 来 ， 
所 有 处 理 带 尼 可 自由 执行 进程 调度 。 
当 IPI 消 息 投递 至 AP 处 理 絮 后 ，AP 处 理 带 的 中 断 处 理 函 数 ao_IRO 会 对 IPI 消 息 进行 解析 。 此 处 不 
要 忘记 为 IPI 消 息 处 理 函 数 追 加 结构 化 的 中 断 处 理 代码 ， 其 程序 实现 请 参见 代码 清单 12-104。 


代码 清单 12-104 ”第 12 章 \ 程 序 \ 程 序 12-1%\ 物 理 平 台 \kernel\APIC.c 


void do_IRQO(struct pt_regs * regs,unsigned long nr) //regs:rsp,nr 


case 0x80: 
Color_printk (RED,BLACK, "SMP IPI:%d,CPU:%Sd\n",nr,SMP_cpu_ id()); 
Local_APIC_ edge_level ack (nr); 
{ 


irg desc _ T * ird = &SMP_IPI_ desc[nr - 200]; 
if(irq->handler != NULL) 
irq->handler (nr,irgq->parameter,regs); 


[esl 


至 此 ， 整 个 进程 管理 单元 已 经 升级 完毕 ， 图 12-40 是 进程 管理 单元 升级 后 的 运行 效果 。 
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图 12-40 ”系统 运行 效果 图 4 


从 图 12-40 可 以 看 到 ， 白 黄 相 间 的 字符 串 频 繁 出 现在 屏幕 中 ， 这 表明 BSP 处 理 器 与 AP 处 理 咒 都 在 
执行 进程 调度 ， 而 且 它们 几乎 从 同一 时 间 点 开始 执行 进程 调度 。 


12.5.3 ”关于 线程 


从 概念 上 讲 ， 进 程 与 线程 是 有 很 大 区 别 的 ， 进 程 是 拥有 资源 的 最 小 单位 ， 而 线程 则 是 执行 的 最 小 
单位 。 线 程 不 能 单独 创建 或 存在 ， 它 必须 依附 于 进程 ， 在 进程 中 创建 和 销毁 。 本 操作 系统 虽 已 基本 实 
现 进程 的 创建 功能 ， 但 对 于 线程 的 创建 功能 目前 还 暂 不 支持 。 考 虑 到 有 些 读者 对 线程 的 创建 过 程 比较 
困惑 ， 下 面 特 对 其 进行 补充 讲解 ， 以 帮助 读者 理 清 思路 。 

对 于 进程 而 言 ， 它 不 仅 是 拥有 资源 的 最 小 单位 ， 同 时 它 还 是 一 个 执行 体 。 那 么 我 们 可 以 把 进程 
象 地 看 做 是 一 个 由 线程 与 共享 资源 组 成 的 混合 体 ， 进 而 可 以 推导 出 一 个 拥有 多 线程 的 进程 是 由 多 个 使 
共享 资源 的 线程 组 成 ， 图 12-41a 是 这 个 推导 过 程 的 示意 图 。 

图 12-41b 从 资源 的 角度 描述 Linux 内 核 的 PCB ， 此 处 大 致 将 其 拆 解 为 两 部 分 : 一 部 分 是 struct 
task_struct 内 的 实例 化 成 员 变 量 , 男 一 部 分 是 通过 指针 关联 的 共用 资源 。 这 两 部 分 可 以 归纳 为 进程 
的 独 享 资源 和 共享 资源 , 其 中 的 独 享 资源 部 分 包括 线程 的 执行 现场 ( 结构 体 struct threag_struct ) 
以 及 管理 信息 等 独 有 资源 ， 由 此 独 享 资源 部 分 可 理解 为 线程 部 分 。 
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struct task_struct 


struct thread_struct thread; struct task_struct struct task_struct 
unsigned long sp0; 
1 2 Usigned | sp; 
P| |P 独 享 资源 | unsigned lons dr>; 独 享 资源 | | 独 享 资源 
概念 unsigned long trap_nr; 
工 让 unsigned long error code: 
Nl | | [ Linux 
P 四 
struct fs_struct* fs; 
3 北 读 次 沽 1 Struct fifes struct*tiles; 
TIITIITIIT 共享 资源 | struct mm Struct*mm:; 
struct signal : struct*signal; 
a) 
P， 进程 进程 进程 
T: 线程 1 1 
线程 | | | | 线程 线程 线程 线程 
| 
PE | 
| 1 | | 逐 辑 
| | 
共享 资源 | 
| | 
(b) 


图 12-41 ”进程 与 线程 的 关系 示意 图 


从 逻辑 上 看 ， 当 PCB 被 分 为 两 部 分 后 ， 系 统 可 在 保持 原 有 进程 创建 效率 的 同时 ， 快 速 完 成 线程 的 
创建 工作 ， 即 在 创建 进程 时 完全 复制 进程 控制 结构 体 ， 而 在 创建 线程 时 只 开辟 线程 部 分 的 存储 空间 ， 
其 他 资源 与 寄主 进程 共享 。 
目前 ,本 系统 的 PCB 和 内 核 层 栈 空间 的 结构 是 参考 Linux 内 核 2.4 版 本 设计 实现 的 。 在 Linux 内 核 2.6 
及 后 续 版 本 中 ,由 于 PCB 过 于 庞大 ， 考 虑 到 内 核 层 栈 空 间 有 限 ， 所 以 内 核 层 栈 基 地 址 处 放置 的 不 再 是 本 
PCB ， 而 是 采用 更 轻 量 级 的 结构 代替 ， 并 与 PCB 相 关联 ，PCB 转 而 改 用 动态 方式 创建 。 
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伴随 着 内 核 功能 逐步 强大 并 趋 于 完善 ， 本 章 将 尝试 对 硬盘 里 的 文件 进行 访问 。 为 了 达到 这 一 目 
的 ， 此 时 的 操作 系统 迫切 需要 文件 系统 功能 的 支持 。 

在 此 前 章节 的 学 习 中 ， 我们 已 经 向 读者 展示 了 软盘 和 U 盘 下 的 FAT12 文 件 系统 。 为 了 减轻 读者 学 
习 文 件 系统 的 压力 ， 本 章 将 带领 读者 实现 功能 更 强大 的 FAT32 文 件 系 统 。 


13.1 文件 系统 概述 


在 没有 文件 这 一 概念 之 前 ， 存 储 介质 的 容量 极 小 ， 数 据 往 往 独 占 存储 设备 并 连续 保存 在 其 中 。 随 
着 存储 设备 容量 的 急剧 增长 ， 它 们 已 经 有 能 力 同 时 为 多 个 设备 提供 数据 存储 空间 。 随 着 数据 的 持续 增 
长 ,存储 介质 为 设备 划分 的 数据 存储 空间 会 产生 数据 覆盖 或 空间 划分 不 合理 等 现象 ， 因 此 才 会 使 用 文 
件 和 文件 系统 来 解决 此 类 现象 。 

文件 是 一 个 抽象 的 概念 ， 它 有 组 织 地 将 多 个 数据 块 管理 起 来 ， 以 确保 有 足够 的 存储 空间 容纳 数 
据 。 一 个 文件 通常 由 文件 信息 和 数据 两 部 分 组 成 ， 其 中 的 文件 信息 记录 着 文件 的 使 用 时 间 、 文 件 名 、 
文件 长 度 、 数 据 扇 区 索引 等 内 容 ， 而 数据 区 则 记录 着 文件 保存 的 实际 数据 。 当 文件 的 个 数 达 到 一 定数 
量 级 后 , 管理 文件 就 变 成 一 件 非 常 复杂 的 事情 , 如 果 借 助 文件 系统 来 管理 文件 可 使 问题 变 得 简单 许多 。 

文件 系统 通常 会 包含 超级 块 、 目 录 项 、 数 据 区 三 部 分 ， 它 们 各 司 其 职 将 所 有 文件 有 组 织 地 管理 起 
来 ,在 逻辑 上 呈现 出 多 又 的 树 状 结构 ， 图 13-1 是 文件 系统 的 整体 结构 示意 图 。 

从 图 13-1 描 述 的 文件 系统 整体 结构 可 以 看 出 ， 超 级 块 是 文件 系统 的 顶层 信息 结构 ， 而 目录 项 和 数 
据 区 则 维护 着 从 根 目 录 延 伸 出 的 所 有 路 径 分 支 ， 这 些 概念 的 解释 如 下 。 
口 超级 块 (Super Block) 。 超 级 块 或 称 启动 户 区 、 引 导 扇 区 等 ， 它 主要 用 于 记录 文件 系统 的 全 局 
信息 。 不 同文 件 系 统 对 文件 和 扇 区 的 管理 策略 各 不 相同 , 从 而 导致 超级 块 的 结构 千差万别 。 
口 目录 项 〈Directory Entry)。 目 录 项 也 会 因 文件 系统 的 不 同类 型 而 千差万别 ， 总 体 来 说 ， 其 主 
要 作用 是 为 了 保存 目录 的 名 字 、 长 度 、 属 性 、 数 据 块 索 引 表 以 及 相关 操作 时 间 等 信息 。 文 件 在 
文件 系统 里 的 组 织 结构 通常 情况 下 与 目录 相同 ,它们 都 使 用 目录 项 统一 进行 管理 , 我 们 只 需 使 
用 属性 信息 里 的 标志 位 便 可 对 两 者 加 以 区 分 数据 块 索 引 表 记 录 着 文件 数据 与 数据 块 的 线性 映 
射 关 系 ， 不 同文 件 系 统 的 索引 方式 千差万别 ， 比 如 ，FAT 类 文件 系统 采用 类 似 单 向 链表 的 一 维 
索引 方式 ， 而 EXT 类 文件 系统 则 采用 类 似 页 表 的 二 维 索引 方式 。 
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口 数据 区 (Data Block)。 文 件 与 目录 的 不 同 最 终 体现 在 数据 区 ， 昌 然 两 者 保存 的 都 是 数据 ， 但 
目录 中 保存 的 是 维护 目录 层级 关系 的 子 目录 项 ,这 些 子 目录 项 可 代表 文件 或 子 目录 。 目 录 项 如 
此 往复 地 逐 层 堆砌 便 形 成 了 文件 系统 的 树 状 结构 。 


ba 


i 
召 引 牛 系统 容重 
超级 二 文人 系统 相关 信息 
' 根 目录 位 置 、 容 量 等 信息 
文件 /目录 文件 
根 目录 | 文件 使 用 时 间 
目录 项 Ed 
a 
目录 文件 J, 索引 块 
目录 J 
目录 项 i 
录 项 文件 数据 区 人 
文件 / 目 志 文件 /目录 


图 13-1 文件 系统 整体 结构 示意 图 
以 上 三 个 概念 是 对 文件 系统 结构 的 高 度 概括 ， 但 由 于 每 款 文件 系统 的 结构 锭 异 ， 在 它们 的 设计 过 
程 中 其 他 辅助 性 概念 还 会 引入 。 
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FAT (File Allocation Table ) 文件 系统 自问 世 以 来 ， 历 经 漫长 的 岁月 ， 现 在 已 经 演化 出 FAT12、 
FAT16、FAT32、VFAT 、exFAT 等 多 个 文件 系统 版 本 。 

尽管 之 前 已 对 FAT 文 件 系 统 有 所 介绍 ， 但 当时 主要 以 操作 系统 的 引导 启动 为 目的 ， 对 于 文件 系统 
的 内 部 结构 并 未 过 多 涉猎 。 那 么 ， 现 在 就 以 FAT32 文 件 系统 为 例 ， 对 FAT 类 文件 系统 的 结构 、 功 能 点 


特点 进行 系统 化 讲解。 3 


13.2.1 FAT32 文件 系统 简介 


FAT32 文 件 系统 与 此 前 介绍 的 FAT12 文 件 系统 相 比 ， 不 但 支持 更 大 容量 的 磁盘 空间 ， 还 支持 长 文 
件 名 、 大 尺寸 文件 以 及 引导 扁 区 的 备份 等 功能 ， 可 以 说 FAT32 文 件 系 统 在 原 FAT12 文 件 系统 的 基础 上 
实现 全 面 升级 。 

无 论 FAT32 文 件 系统 如 何 升 级 改造 ， 其 扇 区 的 组 织 结构 依然 分 为 引导 肩 区 、FAT 表 、 根 目录 区 和 
数据 区 4 部 分 。 下 面 将 逐一 讲解 这 4 部 分 内 容 。 


义 | 
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@ 引导 扇 区 

引导 扇 区 ( Boot Sector ) 也 叫 保留 区 域 ( Reserved Region )， 它 位 于 硬盘 分 区 的 第 一 个 扇 区 中 ， 是 
FAT 类 文件 系统 最 重要 的 一 个 组 成 部 分 。 引 导 忆 区 负责 保存 FAI 文 件 系统 的 重要 数据 信息 ， 表 13-1 总 结 
了 FAT12/16/32 三 个 版 本 文件 系统 的 引导 书 区 数据 结构 。 


表 13-1 FAT12/16/32 文 件 系 统 引 导 扇 区 结构 对 比 表 


BS_jmpBoot 0 3 跳 转 指令 BS_jmpBoot 0 3 
BS_OFEMName 3 8 生产 厂商 名 BS_OFMName 3 8 
BPB_BytesPerSec 二 让 每 届 区 字 节 数 BPB_BytesPerSec i 2 
BPB_SecPerClus 13 ! 每 簇 户 区 数 BPB_SecPerClus 13 1 
BPB_RsvdSecCnt 14 2 保留 肩 区 数 BPB_RsvdSecCnt 14 2 
BPB_NumFATSs 16 1 FAT 表 的 份 数 BPB_NumFATSs 16 1 
BPB_RootEntCnt 17 pa 根 后 录 可 容纳 的 目 录 项 数 BPB_RootEntCnt 17 2 
BPB_TotSec16 19 2 总 肩 区 数 BPB_Tot Sec16 19 人 
BPB_Media 21 1 介质 描述 符 BPB_Media 21 1 
BPB_FATSZ16 22 2 每 FAT 扇 区 数 BPB_FATSZ16 22 2 
BPB_SecPerTrk 24 入 每 磁道 肩 区 数 BPB_SecPerTrk 24 2 
BPB_NumHeads 26 2 磁头 数 BPB_NumHeads 26 2. 
BPB_HiddSec 28 4 隐藏 扇 区 数 BPB_HiddSec 28 4 
BPB_Tot Sec32 32 4 如 果 BPB。”Totsec16 值 为 BPB_TotSec32 32 4 
0， 则 由 这 个 值 记 录 扇 区 数 
每 FAT 记 区 数 ，BPB_FATSz16 必 须 为 0 BPB_FATSZ32 36 4 
扩展 标志 BPB_ExtFlags 40 2 
bit 0~3: 活动 FAT 表 ( 从 0 开始 计数 ) 
bit 4~6: 保留 


bit 7: 更 新 FAT 表 
0: 实时 更 新 所 有 FAT 表 更 新 ; 
1: 仅 更 新 bit 0~3 指 定 的 FAT 表 ; 


FAT32 独 有 

bit 8~15: 保留 

FAT32 文 件 系 统 版 本 号 , 高 字 节 代表 主 版 本 号 ， BPB_FSVer 42 2 

低 字 节 代 表 次 版 本 号 

根 目录 起 始 戏 号 ， 通 常情 况 下 为 2 ppB_Rootclus 44 4 

FSInfo 结 构 体 在 FAT32 文 件 系统 中 的 扇 区 号 BPB_FSInfo 48 2 

引导 扇 区 的 备份 扇 区 号 ， 通 常情 况 下 为 6 ER RAROORSeG 50 2 
留 使 用 BPB_Reserved 52 12 
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( 续 ) 
BS_DrvNum 36 1 int 13h 的 驱动 器 号 BS_DrvNum 64 1 
BS_Reservedl1 37 1 未 使 用 BS_Reserved1 65 1 
BS_BootSig 38 1 扩展 引导 标记 (29h ) BS_BootSig 66 1 
BS_VolID 39 4 卷 序 列 号 BS_VolID 67 4 
BS_VolLab 43 11 卷 标 BS_VolLab 71 11 
BS_FileSysType 54 8 文件 系统 类 型 BS_FilSysType 82 8 
引导 代码 62 448 引导 代码 、 数 据 及 其 他 信息 ”引导 代码 90 420 
结束 标志 510 2 结束 标志 0xaa55 结束 标志 510 2 


从 表 13-1 中 可 以 看 出 ，FAT12 与 FAT16 文 件 系统 采用 相同 的 引导 扇 区 数据 结构 ， 而 FAT32 文 件 系 统 
则 在 它们 的 基础 上 引入 许多 成 员 变量 (数据 信息 )， 以 下 是 需要 额外 补充 说 明 的 成 员 变量 。 
口 BPB_RsvdSecCnt。 保留 区 域 占用 的 鹿 区 数量 是 从 硬盘 分 区 的 第 一 个 扇 区 开始 计数 ,引导 遍 
就 包含 在 保留 区 域内 ， 因 此 该 成 员 变量 的 数值 不 能 为 0。 对 于 FAT12/16 文 件 系统 而 言 ， 保 留 
域 通常 只 占用 1 个 扁 区 ， 而 在 FAT32 文 件 系 统 中 该 值 非 零 即 可 。 
口 BPB_Hiddsec。 隐 藏 扇 区 数 是 指 LBA 0 扇 区 与 文件 系统 起 始 LBA 肩 区 间 的 扇 区 数 。 
口 BPB_RootEntcnt。 对 于 FAT12/16 文 件 系 统 而 言 ， 该 成 员 变 量 记录 着 根 目 录 可 使 用 的 目录 项 数 
量 (32 B )。 而 FAT32 文 件 系统 中 的 该 值 必须 为 0。 
口 BPB_Rootclus。 此 成 员 变量 仪 在 FAT32 文 件 系 统 中 有 效 ， 它 指示 根 目 录 的 起 始 徐 号 ， 通 常情 
况 下 该 数值 为 2， 而 数据 区 的 起 始 徐 号 同样 是 >， 因此 FAT32 文 件 系 统 的 根 目 录 位 于 数据 区 的 起 


i Xl 


始 簇 中 。 

口 BPB_FSInfo。 该 成 员 变 量 只 在 FAT32 文 件 系 统 中 有 效 ， 它 指示 FSInfo 结 构 在 保留 区 域 中 的 扇 
区 号 。 

口 BPB_BkBootsec。 该 成 员 变 量 依然 只 在 FAT32 文 件 系统 中 有 效 ， 它 指示 引导 肩 区 在 保留 区 域 


的 备份 位 置 ( 扇 区 号 )， 通常 将 引导 扇 区 备份 到 6 号 扇 区 中 。FAT32 文 件 系统 在 备份 引导 扁 区 的 
同时 ， 也 会 对 FSInfo 遍 区 进行 备份 ， 其 备份 位 置 往往 紧 随 引导 扁 区 备份 之 后 。 

根据 引导 扇 区 记录 的 数据 ， 我 们 不 难 推算 出 一 些 潜在 的 数据 信息 ， 比 如 ， 根 目录 起 始 扇 区 号 、 根 
目录 占用 扇 区 数 、 数 据 区 起 始 扇 区 号 、 篮 的 起 始 扇 区 号 等 信息 。 对 于 本 节 主 要 讨论 的 FAT32 文 件 系统 
而 言 ， 其 根 目录 区 与 数据 区 重合 ， 并 不 额外 占用 扇 区 空间 ， 因 此 数据 区 的 起 始 扇 区 号 计算 公式 如 下 。 

数据 区 起 始 扁 区 号 =BPB_RsvdSecCnt +BPB FATSz32xBPB NumFATS (13-1) 

对 于 FAT12/16 文 件 系 统 来 说 ， 要 想 求 得 数据 区 的 起 始 遍 区号， 仅 需 把 公式 (13-1) 的 计算 结果 再 加 
上 根 目录 区 占用 的 扇 区 数 即 可 。 

有 了 数据 区 的 起 始 扇 区 号 后 ， 计 算 复 的 起 始 户 区 号 就 变 得 容易 多 了 。 不 过 ,在 计算 过 程 中 ， 还 请 
读者 不 要 忘记 数据 区 的 起 始 篮 号 是 2。 假 设 待 访问 的 复 号 为 N， 那 么 计算 得 N 起 始 扇 区 号 的 公式 如 下 。 
复 N 的 起 始 扇 区 号 =((V-2)xBPB_SecPerClus)+ 数 据 区 起 始 扇 区 号 (13-2) 
相信 借助 这 两 个 公式 以 及 FAT 表 项 ， 在 FAT32 文 件 系统 中 检索 文件 内 的 数据 将 变 得 非常 轻松 。 
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@ FSInfo 扇 区 
在 FAT32 文 件 系统 中 ，FAT 表 是 一 个 非常 


系统 在 保留 区 域 里 加 入 了 一 个 加 


巨大 的 数据 区 域 。 当 文件 系统 经 过 长 时 间 使 
和 索引 空闲 复 号 (FAT 表 项 ) 等 信息 就 变 得 非常 耗 时 ， 尤 其 是 在 系统 启动 期 间 。 鉴 于 此 ，FAT32 文 伯 


FSInfo 户 区 结构 的 详细 定义 。 


表 13-2 ”FAT32 文 件 系统 的 FSsITnfo 扇 区 结构 表 


助 性 的 扇 区 结构 FSsInfo， 来 帮助 文件 系统 记录 这 些 信 息 ， 表 13-2 是 


用 后 ， 计 算 


TT 


名 称 偏 移 长 度 功能 描述 

FSI_LeadSig 0 4 FSInfo 户 区 标识 符 ， 数 值 固定 为 0x41615252 

FSI_Reservedl1 4 480 保留 使 用 ， 全 部 置 为 0 

FSI_StrucSig 484 4 另 一 个 标识 符 ， 数 值 固定 为 0x61417272 

FSI_Free_Count 488 4 上 一 次 记录 的 空闲 复数 量 ， 这 是 个 参考 值 ， 无 需 太 过 精确 。 如 果 该 值 为 
0xFFFFFFFF， 则 说 明 空闲 禾 未 知 ， 需 要 重新 计算 

FSI_Nxt_Free 492 4 空闲 艇 的 起 始 搜 索 位 置 ， 这 是 为 驱动 程序 提供 的 参考 值 。 如 果 该 值 为 
0xFFFFFFFF， 则 必须 从 簇 号 2 开始 搜索 空 闻 簇 

FSI_Reserved2 496 12 保留 使 用 ， 全 部 置 为 0 

FSI_TrailSig 508 4 结束 标志 ， 数 值 固定 为 0xaa550000 


FSInfo 局 区 结构 中 的 FSI_Free_Coun 


统 在 计算 和 索引 空 


闲 篮 号 过 程 中 提供 参考 值 ， 


它们 并 非 实时 更 新 的 准确 


t 和 FSI_Nxt_Free 两 个 成 员 变 量 ， 主 要 是 为 FAT32 文 件 系 


值 为 0xFFFFFFFF 时 ,文件 系统 就 需要 重新 为 它们 计算 参考 值 。 


@ FAT 表 


数值 。 当 这 两 个 成 员 变 量 的 数 


FAT12 文 件 系 统 曾 在 第 3 章 介绍 过 ， 它 的 每 个 FAT 表 项 长 度 为 12 bit。 对 于 FAT16 文 件 系 统 而 言 ， 其 
系统 的 每 个 FAT 表 项 应 该 占用 32 bit。 


每 个 FAT 表 项 长 度 为 16 bit， 以 此 类 推 ，FAT32 文 伯 
虽然 FAT32 文 件 系统 的 每 个 FAT 表 项 占用 4 B 空 间 ， 但 实际 上 仅 低 28 bit 是 有 效 FAT 表 项 位 ， 高 4 bit 
的 文件 系统 操作 过 程 中 ， 文 件 系统 管理 程序 只 会 修改 FAT 表 项 的 低 28 bit， 高 4 bit 保 


保留 使 用 。 在 通常 


留 原 值 不 变 。 只 有 在 格式 化 FAT 文 件 系统 期 间 ， 才 会 对 FAT 表 项 的 高 4bit 进 行 更 改 。 表 13-3 汇 总 了 不 同 
FAT 表 项 值 的 含义 ,读者 可 与 表 3-2 对 比 学 习 。 


表 13-3 ”FAT 表 项 取 值 说 明 


FAT 项 实例 值 功能 描述 

0 OFFFFFFS8h 磁盘 标示 字 ， 低 字 节 与 BPB_Media 数 值 一 致 

1 FFFFFFFFh 第 一 个 簇 已 经 被 占用 

2 00000003h x0000000h: 可 用 簇 

3 00000004h x0000002h~xFFFFFEFh: 已 用 秘 ， 标识 下 一 个 艇 的 簇 号 
ii FFFFFFOh~xFFFFFF6h: 保留 复 

N OFFFFFFFh 人 保留 秘 

N+1 00000000h xFFFFFF7h: 坏 簇 

a XxFFFFFF8h~xFFFFFFFh: 文件 的 最 后 一 个 簇 


注 : xe (0x0 ~ 0xF)。 
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其 实 ， 在 FAT32 文 件 系 统 中 ，FAT 表 项 值 xFFFFFF7h 是 可 用 值 ,但 为 了 避免 潜在 的 隐患 ， 没 有 文件 
系统 会 使 用 该 值 。 同 时 ， 在 FAT16 和 FAT32 文 件 系 统 中 ， 虽 然 FAT[1] 的 高 2 bit 会 另 作 他 用 ， 但 通常 情况 


下 ，FAT[1] 的 值 为 FFFFFFFFh。 
e@ 根 目录 区 和 数据 区 
由 于 FAT32 文 件 系统 在 设计 时 , 并 未 给 根 


目录 区 分 配 独立 的 存储 空间 , 而 是 将 它 包 含 在 数据 区 内 。 


此 种 设计 的 好 处 是 根 目录 区 能 够 动态 增长 ， 进 而 打破 根 目 录 在 目录 项 数量 方面 的 限制 。 


不 仅 如 此 ，FAT32 文 件 系统 在 升级 目录 项 结构 的 同时 ， 还 引入 长 目录 项 结构 ， 使 得 文件 名 和 目录 


名 文 持 长 达 255 个 字符 ， 并 通过 文件 属性 标志 位 来 区 分 长 短 目录 项 结构 。 


@ 短 目 录 项 


短 目 录 项 是 在 原 FAT12 文 件 系 统 目 录 项 的 基础 上 升级 扩展 而 来 ， 它 支持 32 位 的 FAT 表 项 索引 、 


更 丰富 的 目录 项 功能 以 及 更 详细 的 时 间 戳 记录 ， 表 13-4 是 短 目录 项 的 详细 结构 说 明 ， 读 者 可 以 将 


与 表 3-3 对 比 学 习 。 


性 


表 13-4 ” 短 目 录 项 结构 表 
名 称 偏 移 长 度 功能 描述 

DIR_Name 0 11 基础 名 8 B， 扩 展 名 3 B 

DIR_Attr 11 1 文件 属性 : 
0x01=ATTR_READ_ONLY ( 只 读 ) 
0x02=ATTR_HIDDEN ( 隐藏 ) 
0x04=ATTR_SYSTEM ( 系统 文件 ) 
0x08=ATTR_VOLUME_ID ( 卷 标 ) 
0x10=ATTR_DIRECTORY ( 目录 ) 
0x20=ATTR_ARCHIVE ( 存档 ) 
0x0F=ATTR_LONG NAME (长 文件 名 ) 

DIR_NTRes 12 1 保留 使 用 

DIR_CrtTimeTenth 13 1 文件 创建 的 毫秒 级 时 间 戳 

DIR_CrtTime 14 2 文件 创建 时 间 

DIR_CrtDate 16 2 文件 创建 日 期 

DIR_LastAccDate 18 9 最 后 访问 日 期 

DIR_FstClusHI 20 2 起 始 簇 号 ( 高 字 ) 

DIR_WrtTime 22 2 最 后 写 和 人 时间 

DIR_WrtDate 24 2 最 后 写 人 日 期 

DIR_FstClusLO 26 2 起 始 簇 号 ( 低 字 ) 

DIR_FileSize 28 4 文件 大 小 


对 于 表 13-4 描 述 的 短 目录 项 结构 ， 此 处 还 需要 额外 补充 说 明 以 下 内 容 。 
口 文件 名 。 文件 名 由 8 B 的 基础 名 和 3 B 的 扩展 名 组 成 ， 全 长 11 B， 它 们 只 能 保存 字母 、 数 字 以 及 
有 限 的 几 个 字符 ， 如 果 这 两 部 分 字符 串 的 长 度 不 足 ， 将 使 用 空格 符 〈0x20 ) 补 齐 。 文 件 名 字符 
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串 的 第 一 个 字 节 还 拥有 其 他 特殊 功能 ， 当 DIR_Name[0] 为 0xE5、0x00 或 0x05 时 ， 表 明 此 目录 项 
为 无 效 目 录 项 或 空闲 目录 项 ， 而 且 DIR_Name[0] 的 数值 不 允许 为 0x20( 空格 符 )， 同 时 基础 名 
字符 串 间 也 不 允许 出 现 空格 符 。 对 于 短 目 录 项 而 言 ， 它 是 不 区 分 大 小 写 的 ,任何 文件 名 与 目录 
名 均 以 大 写字 母 记录 和 显示 。 

口 文件 属性 。 只 读 、 隐 藏 、 目 录 、 长 文件 名 、 系 统 文件 等 属性 都 比较 容易 理解 ， 而 卷 标 和 存档 属 
性 却 对 我 们 来 说 比较 陌生 。 卷 标 文件 用 于 为 硬盘 分 区 命名 ， 它 与 引导 扇 区 的 Bs_VolLap 成 员 变 
量 功 能 相同 ， 其 位 于 文件 系统 根 目 录 中 。 在 FAT 类 文件 系统 里 ， 有 且 只 有 一 个 文件 可 设置 该 属性 
标志 位 ， 而 且 该 目录 项 的 起 始 簇 号 必须 为 0。 存 档 属 性 是 文件 的 备份 功能 ， 它 记录 了 自 上 次 备份 
后 又 有 那些 文件 被 改动 过 ， 当 对 文件 执行 创建 、 重 命名 或 写 入 操作 时 ， 该 标志 位 会 被 置 位 。 

口 日 期 /时 间 格 式 。 日 期 变量 与 时 间 变 量 的 长 度 同 为 16 bit， 为 了 在 有 限 的 位 宽 下 表达 出 完整 的 时 
间 和 日 期 ，FAT 类 文件 系统 将 这 16 bit 格 式 化 成 表 13-5 和 表 13-6 的 结构 。 


表 13-5 ”FAT32 文 件 系 统 的 日 期 格式 表 


Mal 


位 域 功能 描述 

bit 0~4 日 ， 取 值 范围 1~31 

bit 5~8 月 ， 取 值 范围 1~12 

bit 9~15 年 ， 从 1980 年 开始 计算 年 份 ， 取 值 范围 0~127 ( 1980~2107 年 ) 


表 13-6 ”FAT32 文 件 系统 的 时 间 格 式 表 


位 域 功能 描述 

bit 0~4 秒 ， 每 2 秒 一 次 步 进 ， 取 值 范围 0~29 ( 0~58 秒 ) 
bit 5~10 分 ， 取 值 范围 0~59 

bit 11~15 小 时 ， 取 值 范围 0~23 


以 上 两 个 字段 可 组 成 的 有 效 时 间 域 为 1980-01-01 00:00:00 至 2107-12-31 23:59:58。 
口 起 始 艇 号 。 当 FAT32 文 件 系 统 的 起 始 徐 号 由 原来 的 16 bit 扩 展 为 32 bit 后 ， 由 于 原 起 始 簇 号 的 数 
据 位 宽 不 足 32 pit， 为 了 保证 目录 项 格式 的 兼容 性 ， 我 们 特 将 32 bit 起 始 徐 号 分 割 成 高 16 bit 和 低 
16 bit 两 段 ， 并 分 别 将 它们 保存 在 不 同 的 成 员 变 量 中 。 
@ 长 目录 项 
长 目录 项 结构 扩展 于 短 目录 项 ， 它 将 文件 名 的 编码 方式 从 ASCII 码 升级 为 Unicode 码 ， 使 得 文件 名 
不 仅 可 以 区 分 大 小 写字 母 ， 同 时 还 支持 更 多 种 语言 符号 ， 此 举 弥 补 了 短 目录 项 在 文件 名 记录 上 的 不 足 
之 处 ， 算 是 对 文件 名 的 补充 说 明 。 长 目录 项 紧 随 短 目 录 项 之 后 ， 表 13-7 是 长 目录 项 的 详细 结构 说 明 。 


表 13-7 长 目录 项 结构 表 


名 称 偏 移 长 度 功能 描述 
LDIR_Ord 0 1 长 目录 项 的 序号 
LDIR_Namel 1 10 长 文件 名 的 第 1~5 个 字符 ， 每 个 字符 占 2 B 


LDIRSAtEY 11 1 文件 属性 必须 为 ATTR_LONG_NAME 
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( 续 ) 
名 称 偏 移 长 度 功能 描述 
LDIR_Type 12 1 如 果 为 0， 说 明 这 是 长 目录 项 的 子 项 
LDIR_Chksum 13 1 短文 件 名 的 校 验 和 
LDIR_Name2 14 12 长 文件 名 的 第 6~11 个 字符 ， 每 个 字符 占 2 B 
LDIR_FstClusLO 26 2 必须 为 0 
LDIR_Name3 28 4 长 文件 名 的 第 12~13 个 字符 ， 每 个 字符 占 2 B 
对 于 表 13-7 介 绍 的 长 目录 项 结构 ， 此 处 还 需要 对 文件 名 、 校 验 和 以 及 长 目录 项 序号 等 成 员 变 量 进 
行 额外 说 明 。 


口 长 文件 名 。LDIR_Name1/2/3 是 长 目录 项 的 三 个 字符 串 存储 区 域 , 字符 串 中 的 每 个 字符 用 2 B 的 
Unicode 码 表示 ， 并 以 空 字符 (NUL ) 结尾 。 剩 余 字符 串 空间 以 0xFFFF 填 充 ， 一 个 完整 的 长 文 
件 名 是 由 一 组 连续 的 长 目录 项 组 成 。 

口 校 验 和 。 长 目录 项 的 校 验 和 是 通过 短 目 录 项 的 文件 名 计算 得 来 ， 以 下 是 校 验 和 的 计算 公式 。 


Checksum = ((Checksuml)?0x80:0)+ (Checksum > 1) +DIR_ Name[N| (13-3) 


口 长 目录 项 序号 。 长 目录 项 的 起 始 序号 为 1， 对 于 记录 长 文件 名 的 最 后 一 个 长 目录 项 而 言 ， 其 序 
号 成 员 变量 的 第 6 位 必须 置 位 (LAsT_LONG_ENTRY(0x40) IN ) 以 表示 结尾 。 


13.2.2 ”通过 实例 深入 解析 FAT32 文件 系统 


尽管 目前 已 对 FAT32 文 件 系统 的 主体 结构 进行 了 介绍 , 但 某 些 概念 过 于 抽象 , 难以 通过 语言 表达 。 
为 了 使 读者 更 深刻 地 理解 FAT32 文 件 系统 ， 本 节 将 通过 一 些 实例 对 FAT32 文 件 系统 进行 补充 讲解 。 

@ 硬盘 分 区 表 

在 操作 硬盘 之 前 ， 请 使 用 磁盘 管理 软件 ( DiskGenius ) 清空 硬盘 里 的 数据 ， 以 免 对 分 析 过 程 造 成 
干扰 。 随 后 再 为 空 硬盘 创建 一 个 FAT32 文 件 系 统 分 区 ， 图 13-2 是 创建 分 区 的 配置 界面 。 


| 


ES pm hr 


请 选择 分 区 类 型; 
名 主 碰 盘 分 区 
扩展 详 盘 分 区 
过 辑 分 区 
请 选择 文件 系统 类 型 : 
E27 
文件 系统 标识 : |0B 
| 新 分 区 大 小 0 - 55 63): 


1 全 |gB ~ 


回 对 齐 到 下 列 扇 区 数 的 整数 倍 : 

2048 该 区 (1048576 字 节 ) 
详细 基数 >> 

CC 


Ms 2 


图 13-2 ”创建 FAT32 文 件 系统 的 配置 界面 图 


A 


外 


-ae 
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这 里 已 


磁极 分 区 、 扩 
主 磁盘 分 区 是 指 通 过 人 硬盘 MBR 主 引导 


经 为 FAT32 文 件 系统 选择 主 磁盘 分 区 ， 并 为 其 
展 磁 盘 分 区 和 人 逻辑 分 区 的 不 同 之 处 比较 好 奇 。 
扇 区 的 硬盘 分 区 表 划 分 的 磁盘 分 区 ， 硬 盘 分 区 表 共 有 4 项 ， 


划分 1 GB 的 存储 空 


s 间 。 一 些 读者 可 能 会 对 主 


因此 一 


型 。 随 着 硬盘 容量 的 逐渐 扩大 ， 人 们 希望 一 


块 硬盘 


展 磁 盘 分 区 这 一 概念 。 扩 展 磁盘 分 区 可 认为 是 一 种 主 磁盘 分 
而 是 一 个 个 动态 的 磁盘 分 区 。 这 相当 于 将 扩 
区 ) 可 在 硬盘 分 区 表 的 帮助 下 划分 出 更 多 磁盘 分 区 
一 项 记录 当前 分 区 的 类 型 
起 始 LBA 扇 区 号 等 内 容 ， 其 类 型 值 为 05h。 对 于 扩 
趣 的 读者 可 以 自行 学 习 


分 区 装载 的 不 是 文件 系统 ， 
盘 ， 这 块 虚拟 硬盘 (扩展 磁盘 分 
硬盘 分 区 表 仅 有 两 项 : 
为 逻辑 分 区 ， 它 记录 着 下 一 个 分 区 的 容量 、 


分 区 和 人 逻辑 分 区 的 功能 细节 本 文 将 不 再 予以 介绍 
通过 主 引导 扇 区 的 硬盘 分 区 表 ， 可 很 容易 地 索引 出 FAT32 文 件 系统 的 位 置 ， 


的 数据 截图 。 


Offset 2 
0000001B0 65 
0000001C0 21 
0000001D0 
0000001E0 


学 
9a 
08 
00 
00 


型 、 


大 小 、 


感 六 披 


NAN 


一 块 便 盘 最 多 可 拥有 4 个 主 磁 盘 分 区 ， 每 个 表 项 的 分 区 类 型 成 员 变 量 可 指定 分 区 的 文件 系统 类 
可 划分 成 更 多 的 区 域 来 存储 数据 ， 由 此 便 引入 了 扩 


区 类 型 ( 类 型 值 为 0Fh )， 只 不 过 扩展 磁盘 
展 磁 盘 分 区 重新 虚拟 成 一 块 硬 
区 。 扩 展 磁 盘 分 区 的 


起 始 LBA 扇 区 号 (相对 ) 等 信息 ; 另 一 项 称 


展 磁 盘 


图 13-3 是 硬盘 分 区 表 


8 9 A BC Dp E F0123456789ABCDEF 
EU 


F4 
00 
00 
00 


5F 
00 
00 
00 


82 


7B 


00 
00 
00 
00 


80 20 em.. 
00 00 ! 
00 00 . 
00 00 . 


0000001F0 


主 引导 扇 


00 00 


区 的 硬盘 分 区 表 数 据 截 


00 00 55 AA 


从 图 中 可 以 看 出 ，FAT32 文 件 系统 的 起 始 LBA 扇 区 号 为 0000,0800h， 磁 盘 分 区 容量 是 0020,1800h ， 


分 区 类 型 值 0Bh 标 明 此 分 区 是 FAT32 文 件 


@ 引导 扇 区 


ZLo 


根据 硬盘 分 区 表 项 提供 的 数据 ， 可 表 


定 FAT32 文 件 系统 起 始 于 LBA800h 扇 


文件 系统 的 引导 扇 区 ， 图 


13-4 是 引导 扇 区 的 数据 截图 。 


区 处 ， 此 扇 区 也 是 FAT32 


Offset 0 1 2 


全 


0123456789ABCDEF 


000100000 EB 58 90 4D 53 44 4F 53 35 2E 30 00 02 08 24 00 8X.MSDOS5.0...$. 
000100010 02 00 00 00 00 F8 00 00 3F 00 FF 00 00 08 00 

000100020 00 18 20 00 02 08 00 00 00 00 00 00 02 00 00 

000100030 01 00 06 00 00 00 00 00 00 00 00 00 00 00 00 

000100040 80 00 29 23 48 00 00 20 20 20 20 20 20 20 20 上 

000100050 20 20 46 41 54 33 32 20 20 20 33 C9 8E D1 BC F4 FaT32 3E .fue 
000100060 7B BE C1 8E D9 BD 00 7C 88 4E 02 BA 56 40 B4 08 {. 直 .UK.|.N..VG@ 
000100070 CD 13 73 05 B9 FF FF 8A F1 66 OF B6 C6 40 66 OF 1.s.1yy .nf .EGF. 
000100080 B6 D1 80 E2 3F F7 E2 86 CD CO ED 06 41 66 OF B7 Mi.a?7-8.1AL.AF.. 
000100090 C9 66 F7 E1 66 89 46 F8 83 7E 16 00 75 38 83 7E Ef:éf.Fo.~..uB.”~ 
0001000A0 2A 00 77 32 66 8B 46 1C 66 83 CO OC BB 00 80 B9 #.w2f.F.f.A.»..! 
0001000B0 01 00 E8 2B 00 E9 48 03 A0 FA 7D B4 7D 8B FO AC ..e+.eH. }.87 
0001000C0 84 C0 74 17 3C FF 74 09 B4 OE BB 07 00 CD 10 EB it. < es 和 
0001000D0 EE aA0 FB 7D EB E5 A0 F9 7D EB E0 98 CD 16 CD 19 inhea dyea.i.i. 
0001000E0 66 60 66 3B 46 F8 OF 82 4A 00 66 6A 00 66 50 06 ff:Fo..J.fj. £P. 
0001000F0 53 66 68 10 00 01 00 80 7E 02 00 OF 85 20 00 B4 Sfh..... Die 
000100100 41 BB AA 55 8A 56 40 CD 13 OF 82 1C 00 81 FB 55 A»3U.Ve@i...... AU 
000100110 AA OF 85 14 00 F6 C1 01 OF 84 OD 00 FE 46 02 B4 8....6A..... 1 站 
000100120 42 8A 56 40 8B F4 CD 13 BO F9 66 58 66 58 66 58 B. Ve. Bf. °ufXEXEX 
000100130 66 58 EB 2A 66 33 D2 66 OF B7 4E 18 66 F7 F1 FE fX8xf30f.°:N.f-iib 
000100140 C2 8A CA 66 8B DO 66 C1 EA 10 F7 76 1A 86 D6 BA A.EF .DFAS.+v..0. 
000100150 56 40 8A E8 CO E4 06 OA CC B8 01 02 CD 13 66 61 Ve@.eAa..i,..i.fa 
000100160 OF 82 54 FF 81 C3 00 02 66 40 49 OF 85 71 FF C3 ..Ty.8..f@I..qyE 
000100170 4E 54 4C 44 52 20 20 20 20 20 20 00 00 00 00 00 NTLDR ..... 
000100180 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000100190 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ........... 
0001001A0 00 00 00 00 00 00 00 00 00 00 00 00 OD OA 52 65 .ieee 
0001001B0 6D 6F 76 65 20 64 69 73 6B 73 20 6F 72 20 6F 74 move disks or ot 
0001001C0 68 65 72 20 6D 65 64 69 61 2E FF OD OA 44 69 73 her media.y..Dis 
0001001D0 6B 20 65 72 72 6F 72 FF 0D OA 50 72 65 73 73 20 k errory..Press 
0001001E0 61 6E 79 20 6B 65 79 20 74 6F 20 72 65 73 74 61 any key to resta 
0001001F0 72 74 OD OA 00 00 00 00 00 AC CB D8 00 00 55 AA rt....... -EO. .Us 


图 13-4 FAT32 文 件 系 统 的 引导 扇 区 数据 截图 
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根据 表 13-1 描 述 的 引导 扇 区 数据 结构 ,可 将 图 13-4 中 的 引导 扁 区 数据 格式 化 成 表 13-8 所 示 的 结构 。 
表 13-8 ”FAT32 文 件 系统 引导 扇 区 数据 对 照 表 


FAT32 名 称 偏 移 长 度 硬盘 中 的 数据 FAT32 内 容 
BS_jmpBoot 0 3 0x9058EB 跳 转 指 邻 
BS_OEMName 3 8 'MSDOS5.0' 生产 厂商 名 
BPB_BytesPerSec 11 2 5s12 每 扇 区 字 节 数 
BPB_SecPerClus 13 1 8 每 簇 扇 区 数 
BPB_RsvdSecCnt 14 2 36 保留 户 区 数 
BPB_NumFATS 16 1 2 共有 多 少 FAT 表 
BPB_RootEntCnt 17 2 0 根 目 录 文 件数 最 大 值 
BPB_TotSec16 19 2 0 16 位 扇 区 总 数 
BPB_Media 21 1 OxF8 介质 描述 符 
BPB_FATSz16 22 2 0 FAT12/16 每 FAT 扇 区 数 
BPB_SecPerTrk 24 2 63 每 磁道 扇 区 数 
BPB_NumHeads 26 2 255 磁头 数 
BPB_HiddSec 28 4 2048 隐藏 扇 区 数 
BPB_TotSec32 32 4 2103296 32 位 扇 区 总 数 
BPB_FATSz32 36 4 2050 FAT32 每 FAT 扇 区 数 
BPB_ExtFlags 40 2 0 扩展 标志 
BPB_FSVer 42 2 0 FAT32 文 件 系统 版 本 号 
BPB_RootClus 44 4 2 根 目录 起 始 簇 号 
BPB_FSInfo 48 2 1 FSInfo 结 构 体 的 扇 区 号 
BPB_BkBootSec 50 2 6 引导 扇 区 的 备份 扇 区 号 
BPB_Reserved 52 12 0 保留 使 用 
BS_DrvNum 64 1 0x80 int 13h 的 驱动 器 号 
BS_Reserved1 65 1 0 未 使 用 
BS_BootSig 66 1 0x29 扩展 引导 标记 (29h ) 
BS_VolID 67 4 0x00004823 卷 序列 号 
BS_VolLab 71 11 L 卷 标 
BS_FilSysType 82 8 FAT32 文件 系统 类 型 
引导 代码 90 420 了 略 引导 代码 、 数 据 
结束 标志 510 2 0xAA55 0xAA55 


经 过 此 番 转 化 后 ， 引 导 扇 区 数据 结构 变 得 更 加 直观 、 清 晰 。 同 时 ， 读 者 还 可 根据 磁盘 管理 软件 
提供 的 分 区 参数 对 表 13-8 中 的 数据 做 进一步 验证 。 图 13-5 是 磁盘 管理 软件 提供 的 FAT32 文 件 系统 参 
数 截图 。 
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文件 系统 类 型 : FAT32 ” 卷 标 : 

总 容量 : 1.06B ”总 字 节 数 : 1076887552 

已 用 空间 : 2. 0NMB 可 用 空间 : 1.06B 
大 小 : 4096 ”总 这 数 : 262395 

已 用 族 数 ; 1 ”空间 族 数 : 262394 

总 扇 区 数 : 2103296 。 扇 区 大 小 : 512 Bytes 

起 始 扇 区 号 : 2048 

卷 序 列 号 : 0000-4823 ”BPB 卷 标 : 

保留 扁 区 数 : 36 ”DER 备份 扇 区 号 : B 

FAT 个 数 : 2 ”FAT 扇 区 数 : 2050 

FAT1 扇 区 号 : 36 (性 面 :0 磁头 :33 扇 区 :6) 

FAT2 扇 区 号 : 2086 ( 柱 面 :0 磁头 :65 扇 区 :40) 

根 目录 扇 区 号 : 4136 (性 面 :0 磁头 :98 扇 区 :11) 

根 目 录 族 号 : 

数据 起 始 扇 区 号 : 4136 ( 柱 面 :0 磁头 :98 扇 区 :11) 


图 13-5 FAT32 文 件 系 统 参数 截图 


虽然 磁盘 管理 软件 提供 < 多 ， 但 这 些 参数 都 是 FAT32 文 件 系统 的 重要 信息 。 此 处 再 对 “起 
始 鹿 区 号 ”一 值 补 充 说 明 一 点 ， 经 过 多 次 测试 后 发 现 ， 如 果 主 磁盘 分 区 格式 化 为 FAT32 文 件 系统 ， 那 
NR 如 果 人 逻辑 分 区 格式 化 为 FAT32 文 件 系统 ， 那 么 此 值 与 
BPB_HidgdSsec 成 员 变 量 、 扩 展 分 区 起 始 LBA 启 区 号 有 关 ，BPB_Higdsec 成 员 变 量 可 能 参与 过 起 始 肩 
区 号 的 计算 。 

FSInfo 肩 区 紧 随 引导 肩 区 之 后 ， 这 个 鹿 区 为 检索 FAT 表 项 提供 了 一 些 参考 数据 。 图 13-6 是 FSITnfo 
扇 区 的 数据 截图 。 


TL 


Offset 0 1 2 3 4 5 6 7 8 9 A BSC D E F0123456789ABCDEF 
000100200 52 52 61 41 00 00 00 00 00 00 00 00 00 00 00 00 RRaA............ 
000100210 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .eee 
000100220 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000100230 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .os 
000100240 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .es 
000100250 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ees 
000100260 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .es 
000100270 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000100280 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ee 
000100290 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .......... 
0001002A0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .es 
0001002B0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .es 
0001002C0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ............... 
0001002D0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .sees 
0001002E0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ee 
0001002F0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000100300 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ee 
000100310 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ees 
000100320 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ess 
000100330 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000100340 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ............... 
000100350 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ee 
000100360 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ees 
000100370 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .i 
000100380 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .es 
000100390 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ieee 
0001003A0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .oes 
0001003B0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
0001003C0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .es 
0001003D0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .es 
0001003E0 00 00 00 00 72 72 41 61 FA 00 04 00 03 00 00 00 ....rrAatl....... 
0001003F0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 55 AR .as Ua 


图 13-6 FAT32 文 件 系统 的 FSsInfo 户 区 数据 截图 


将 图 13-6 显 示 的 FSInfo 遍 区 数据 按照 表 13-2 定 义 的 FSiInfo 绪 构 进行 信息 提取 , 便 可 获得 数据 对 
照 表 13-9。 
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表 13-9 ”FAT32 文 件 系统 的 FSInfo 扁 区 数据 对 照 表 


名 称 偏 移 长 度 硬盘 中 的 数据 内 容 

FST_LeadSig 0 4 41615252h FsTnfo 肩 区 标识 符 ， 数 值 为 0x41615252 

FSI_Reservedl1 4 480 00h 保留 使 用 ， 全 部 置 为 0 

FSI_StrucSig 484 4 61417272h 另 一 个 标识 符 ， 数 值 为 0x61417272 

FST Pree Count 488 4 000400FAh ”上 一 次 记录 的 空闲 马 数 量 ， 这 是 个 参考 值 ， 不 需要 大 
精确 

FSINxt_ Pree 492 4 00000003h 空闲 簇 的 起 始 搜 索 位 置 ， 这 是 个 为 驱动 程序 提供 的 参 
考 值 

FSI_Reserved2 496 12 00h 保留 使 用 ， 全 部 置 为 0 

FSI_TrailSig 508 4 AA550000h 结束 标志 ， 数 值 为 0xaa550000 


表 13-9 中 的 空闲 复数 量 为 400FAh=262394， 该 值 与 图 13-5 所 示 的 空闲 复数 是 一 致 的 。 由 于 0 和 1 号 
簇 保留 使 用 ，2 号 艇 被 根 目录 使 用 ， 因 此 空 闪 簇 的 起 始 搜 索 位 置 为 3。 

@ FAT 表 与 目录 项 

当 磁 盘 分 区 被 格式 化 为 FAT32 文 件 系 统 后 , FAT 表 仅 有 前 三 项 被 初始 赋值 , 剩余 表 项 全 部 为 0， 
图 13-7 是 FAT 表 的 详细 数据 截图 。 


Offset 0 1 2 3 4 5 6 7 8 9 A BC D E F0123456789ABCDEF 
000104800 F8 FF FF OF FF FF FF OF FF FF FF OF 00 00 00 00 eyy .YYyY .YYY..... 
000104810 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000104820 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000104830 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000104840 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000104850 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .sess 
000104860 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .eee 
000104870 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ie 
000104880 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000104890 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
0001048A0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
0001048B0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
0001048C0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
0001048D0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .i 
0001048E0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
0001048F0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000104900 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ....... 
000104910 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ....... 
000104920 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ene 
000104930 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000104940 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000104950 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000104960 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000104970 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
000104980 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ee 
000104990 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
0001049a0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
0001049B0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ....... 
0001049C0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 .ses 
0001049D0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ...............， 
0001049E0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 
0001049F0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 


图 13-7 FAT32 文 件 系统 的 FAT 表 项 数据 截图 


在 文件 创建 期 间 ，FAT32 文 件 系统 会 先 为 文件 创建 目录 项 结构 ， 并 将 其 保存 在 目录 的 数据 区 内 。 
只 有 在 向 文 件 写 入 数据 时 ， 文 件 系 统 才 会 为 其 分 配 可 用 簇 号 (FAT 表 项 ); 而 在 子 目 录 创建 期 间 ， 由 于 
子 目录 始终 不 为 空 (含有 代表 当前 目录 名 .和 父 目录 名 .. 的 两 个 默认 目录 项 ) 所 以 目录 不 但 会 为 子 目录 
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创建 目录 项 ， 还 会 为 其 分 配 可 用 簇 号 。 

对 于 文件 和 目录 的 创建 方式 ，Windows 系 统 与 Linux 系 统 略 有 不 同 。Linux 文 件 系统 驱动 在 创建 目 
录 项 时 ， 除 非 文 件 名 全 部 为 大 写字 母 ， 否 则 一 律 使 用 短 目录 项 加 长 目录 项 的 组 合 方式 为 文件 或 目录 创 
建 目录 项 ; 而 Windows 除 了 有 具备 Linux 的 功能 外 ， 还 会 考虑 文件 名 的 长 度 和 大 小 写 ， 当 文件 名 满足 基础 
名 加 扩展 名 的 短 目录 项 文件 名 格式 时 ， 如 果 基 础 名 或 扩展 名 中 含有 的 字母 同 为 大 写 或 小 写 ， 则 可 使 用 
目录 项 结构 中 的 DIR_NTRes 成 员 变 量 加 以 标识 ， 从 而 省 去 长 目录 项 对 文件 名 的 补充 解释 。 表 13-10 是 


成 员 变 量 DIR_NTRes 的 标识 值 说 明 。 


表 13-10 ”DIR_NTRes 成 员 变 量 的 标识 值 说 明 表 


数值 功能 描述 数值 功能 描述 
00h 扩展 名 大 写 ， 基 础 名 大 写 10h 扩展 名 小 写 ， 基 础 名 大 写 
08h 扩展 名 大 写 ， 基 础 名 小 写 18h 扩展 名 小 写 ， 基 础 名 小 写 


为 了 验证 这 些 标识 值 ， 我 们 特 在 Windows 操 作 系统 下 对 FAT32 文 件 系 统 执行 文件 创建 操作 ， 创 建 
的 文件 名 分 别 为 a.txt、B.txt、c.TXT 以 及 D.TXT， 再 通过 磁盘 管理 软件 来 分 析 目 录 项 数据 ， 图 13-8 
是 详细 的 数据 截图 。 


会 名 称 大 小 ”文件 类 型 属性 短文 件 名 修改 时 间 创建 时 间 

国 & txt 0 B 文本 文档 和 A.TXT 2016-09-14 14:55:48 2016-09-14 14:55:46 
国 B.txt 0 B 文本 文档 入 B.TXT 2016-09-14 14:55:52 2016-09-14 14:55:46 
国 。.TT 0 B 文本 文档 入 CTXT, 2016-09-14 14:55:58 2016-09-14 14:55:46 
一 0 B 文本 文档 让 D.TXT 2016-09-14 14:56:08 2016-09-14 14:55:46 


Offset 0 12 3 4 5 6 7 8 9 A BSC D E F0123456789ABCDEF 
000305000 E5 BO 65 FA 5E 87 65 2C 67 87 65 OF 00 D2 63 68 é&°ei^.e,g.e..0ch 
000305010 2E 00 74 00 78 00 74 00 00 00 00 00 FF FF FF FF ..t.x.t.... .YYyy 
000305020 E5 C2 BD A8 CE C4 7E 31 54 58 54 20 00 38 F7 76 éAY iA~V1ITXT .8=V 
000305030 2E 49 2E 49 00 00 F8 76 2E 49 00 00 00 00 00 00 .I.I..ov.I...... 
000305040 |41 20 20 20 20 20 20 20 54 58 54 20 18 38 F7 76|A TXT .8=V 
000305050 |2E 49 2E 49 00 00 F8 76 2E 49 00 00 00 00 00 00| .I.I..ov.I...... 
000305060 E5 BO 65 FA SE 87 65 2C 67 87 65 OF 00 D2 63 68 é°eii^.e,g.e..0ch 
000305070 2E 00 74 00 78 00 74 00 00 00 00 00 FF FF FF FF .tx.t.... VYY 
000305080 ES5 C2 BD A8 CE C4 7E 31 54 58 54 20 00 38 F7 76 é#AY IiA~VITXT .8=v 
000305090 2E 49 2E 49 00 00 FA 76 2E 49 00 00 00 00 00 00 .I.I..Uuv.I.....， 
0003050a0 |42 20 20 20 20 20 20 20 54 58 54 20 10 38 F7 76|B TAT .Ow 
0003050B0 |2E 49 2E 49 00 00 FA 76 2E 49 00 00 00 00 00 00 .1.I..iv.I...... 
0003050C0 ES5 BO 65 FA SE 87 65 2C 67 87 65 OF 00 D2 63 68 é&°ei^.e,g.e..0ch 
0003050D0 2E 00 74 00 78 00 74 00 00 00 00 00 FF FF FF FF ..t.x.t.... .YYyYYy 
0003050E0 ES5 C2 BD A8 CE C4 7E 31 54 58 54 20 00 38 F7 76 éAY iAV1TXT .B+-v 
D0003050F0 2E 49 2E 49 00 00 FD 76 2E 49 00 00 00 00 00 00 .I.I..yr.I...... 
000305100 |43 20 20 20 20 20 20 20 54 58 54 20 08 38 F7 76|C TXT .Biv 
000305110 |2E 49 2E 49 00 00 FD 76 2E 49 00 00 00 00 00 O00 .1.Il..yv.I...... 
000305120 E5 BO 65 FA SE 87 65 2C 67 87 65 OF 00 D2 63 68 é°ei^.e,g.e..0ch 
000305130 2E 00 74 00 78 00 74 00 00 00 00 00 FF FF FF FF ..t.x.t.... .YYyy 
000305140 E5 C2 BD A8 CE C4 7E 31 54 58 54 20 00 38 F7 76 éAY iA~VITXT .8=V 
000305150 2E 49 2E 49 00 00 04 77 2E 49 00 00 00 00 00 00 .I.I...w.I...... 
000305160 44 20 20 20 20 20 20 20 54 58 54 20 00 38 F? 7Z6lD TT Bw 
000305170|l2E 49 2E 49 00 00 04 77|2E 49 00 00 00 00 00 00 .1.I...w.I...... 


图 13-8 ”Windows 操 作 系统 下 的 文件 与 目录 项 数据 截图 


如 图 13-8 所 示 ，Windows 操 作 系 统 为 每 个 文件 创建 了 三 个 目录 项 ， 其 中 的 两 项 均 以 数值 0xE5 开 
头 ， 虽 然 不 太 清 楚 以 数值 0xE5 开 头 的 目录 项 的 用 途 ， 但 既然 0xE5 代 表 无 效 目录 项 ， 此 处 不 必 深究 其 
作用 。 同 样 是 上 述 4 个 文件 ， 它 们 在 Linux 操 作 系统 下 创建 的 目录 项 数据 却 过 然 不 同 ， 图 13-9 是 详细 
的 数据 截图 。 
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爹 名 称 大 小 ”文件 类 型 属性 “ 短文 件 名 修改 时 间 创建 时 间 

a txt 0 B 文本 文档 A ATXT 2016-09-15 09:56:04 2016-09-15 09:56:05 
国 B. txt 0 B 文本 文档 A DT 2016-09-15 09:56:10 2016-09-15 09:56:11 
国 s. TXT 0 B 文本 文档 和 CT 2016-09-15 09:56:18 2016-09-15 09:56:18 
国 D.TT 0 B 文本 文档 入 D.TXT 2016-09-15 09:56:26 2016-09-15 09:56:27 


Offset 0 1 2 3 4 5 6 718 9 A BC D E F|0123456789ABCDEF 


000305000 /41 61 00 2E 00 74 00 76 00 74 O00 OF 0055 00 00 Aa...t.x.t...].. 
000305010 |FF FF FF FF FF FF FF FF FF FF 00 00 FF FF FF FF| Vy. .Vy 
000305020 |41 20 20 20 20 20 20 20 54 58 54 20 00 64 02 4F|A TXT .d.0 
000305030 |2F 49 2F 49 00 00 02 4F 2F 49 00 00 00 00 00 00 /1/1...0/1...... 
000305040 [41 42 00 2E 00 74 00 78 00 74 00 OF 00 1D 00 O00 AB...t.x.t...... 
000305050 |FF FF FF FF FF FF FF FF FF FF 00 00 FF FF FF FF Vr. .Vy 
000305060 |42 20 20 20 20 20 20 20 54 58 54 20 00 64 05 4F|B TXT .d.0 
000305070 |2F 49 2F 49 00 00 05 4F 2F 49 00 00 00 00 00 00| /I/I...0/1...... 
000305080 [41 63 00 2E 00 54 00 58 00 54 00 OF 00 DC 00 O00 Bc...T.X.T...U.. 
000305090 |FF FF FF FF FF FF FF FF FF FF 00 00 FF FF FF FF| VY. .Vy 


0003050a0|43 20 20 20 20 20 20 20 54 58 54 20 00 00 09 4F|C A 
0003050B0 LE 49 2F 49 00 00 09 4F 2F 49 00 00 00 00 00 00| /I/I...0/I...... 
0003050C0 44 20 20 20 20 20 20 20 54 58 54 20 00 64 0D 4F|D TKI sO 


0003050D0 l2F 49 2F 49 00 00 OD 4F 2F 49 00 00 00 00 00 00 AI/I...0/I...... 


图 13-9 ”Linux 操 作 系统 下 的 文件 与 目录 项 数据 截图 


从 图 13-9 可 知 ,， 仅 当 基 础 名 和 扩展 名 同 为 大 写字 母 时 ，Linux 操 作 系 统 才 不 会 为 短 目 录 项 创建 长 目 
录 项 ， 否 则 将 使 用 短 目录 项 结合 长 目录 项 的 组 合 来 描述 一 个 文件 或 目录 。 

倘若 读者 对 FAT32 文 件 系 统 的 整体 结构 没有 一 个 清晰 的 概念 ， 则 很 容易 在 看 完 上 述 结构 和 实例 后 
感到 迷茫 。 因 此 ， 这 里 特 将 引导 扇 区 、FAT 表 扇 区 和 数据 区 的 目录 项 融合 在 一 幅 图 内 ， 来 展示 它们 在 
FAT32 文 件 系 统 内 的 联系 ， 详 细 结 构 示 意图 如 图 13-10 所 示 。 


蝶 娩 居多 时 空间 穷 于 
D0] BOOT Sector [1 
I BPB FSInfo Es 
Reserved 十 
BPB_BkbootScc [1 
Reserved 29 
引导 己 攻 数据 
BPB_ RsvdSecCnd 3 ------ 4B 
1 
BPB_NumFATs Pe 6 
2050] BPB_ FATS/32 1 4B 
1 
BPB_BkBootSec 1 十 
4B 
1 FATI 
1 2050 
1 
'! | Ek 一 
' 
' 
~ 
12086 
1 
1 1 
让 
1 
1 FAT2 2050 
上 1 
' 
1 
1 
1 
1 
U 1 
i 
1+136 | Directory Entry(32B 
| 
让 DIR_FstClusHI 
! 
DL 


DIR_FstClusLO 
DIR_Name 
DIR_FileSive 
Dir_Atlr(File/Directory) 


1 BPB_SecPerClus(8) 


图 13-10 FAT32 文 件 系统 结构 示意 图 
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此 图 是 依据 图 13-5 提 供 的 FAT32 文 件 系统 参数 以 及 其 他 数据 截图 和 结构 定义 描画 出 来 的 ， 它 巧妙 


地 通过 引导 扇 区 参数 将 各 类 肩 区 在 文件 系统 中 的 位 置 绘制 出 来 ， 并 通过 目录 项 将 数据 区 和 FAT 表 项 的 


联系 描绘 出 来 。 


除 此 之 外 ，FAT32 文 件 系统 还 要 求 同 一 目录 里 的 长 短文 件 名 是 唯一 的 。 昌 然 长 文件 名 可 以 保持 唯 
一 性 ， 但 短文 件 名 仅 记 录 着 长 文件 名 的 前 8 个 基础 名 字符 ， 因 此 短文 件 名 很 难保 证 不 重复 。 为 了 保证 


短文 件 名 的 唯一 性 ，FAT32 文 件 系统 提供 了 一 套 明 胡 
首先 ， 依 然 要 清空 磁盘 分 


的 解决 方法 ， 下 面 将 结合 实例 来 阐明 。 
区 中 的 数据 ， 并 重新 将 分 区 格式 化 为 FAT32 文 件 系统 。 然 后 ， 在 文件 系 


统 根 目录 下 创建 名 为 ABCDEFGHIJKLMNOPQRST.txt 和 ABCDEFGHIJKLMNOPQRSTUVWXYZ.txt 的 


两 个 文件 ， 图 


会 名 称 


| MBCDEFGHIJKLMNOPQRST. txt 
国 | ABCDEFGHIJKUNNOFQRSTUWYWYXYZ. txt 


Offset 
000305000 
000305010 
000305020 
000305030 


13-11 是 这 两 个 文件 的 目录 项 数据 截图 


Br 
E5 
2F 
ES 
本 之 


O 


大 小 文件 类 型 ”属性 短文 件 名 
0 B 文本 文档 A 
0 B 文本 文档 A 


修改 时 间 


FP | 


000305040 
000305050 
000305060 
000305070 
000305080 
000305090 


42 
54 
01 
47 
41 
32 


0003050A0 
0003050B0 
0003050C0 
0003050D0 


ES 
2E 
E5 
32 


0003050E0 
0003050F0 
000305100 
000305110 
000305120 
000305130 
000305140 
000305150 


43 
EF 
02 
54 
01 
47 
41 
92 


000305160 
000305170 
000305180 
000305190 


00 
00 
00 
00 


目录 项 数据 截图 1 


图 13-11 


创建 时 间 


ABCDEF 2. TXT 2016-09-18 16:26:38 2016-09-18 16:26:36 
ABCDEF~1.TXT 2016-09-18 16:27:28 2016-09-18 16:27:26 


0123456789ABCDEF 
ae .e.g.e..0ch 


ABCDEF~2TXT .. 
2121°,..8::21 
aei^ .e.g.e..0 
Pe 0 DE 
BA TA~1TXT .Sm. 
2I2I..n.2I 


yy 
's. 
2 
'F. 
M. 
ML 


ABCDEF~1TXT .S$ 
ZT vl 


图 13-11 中 的 两 个 短 目录 项 的 文件 名 分 别 为 ABCDEF~1.TXT 和 ABCDEF~2.TXT FAT32 文 件 系统 以 


这 种 “部 分 文件 名 ”+ “~N” 的 方式 将 重复 的 短文 件 名 变 成 只 


一 的 文件 名 标识 。 此 处 的 字母 N 代 表 数 


字 字 符 ， 它 的 取 值 范围 是 1~999999。 如 果 重 复 的 短文 件 名 过 多 ，FAT32 文 件 系统 会 使 用 类 似 的 快速 算 


法 去 创建 短文 件 名 。 


FAT32 文 件 系统 还 支持 代表 当前 目录 的 目录 名 .和 代表 父 


目录 的 目录 名 ..， 这 两 个 目录 项 会 在 除根 


目录 以 外 的 所 有 子 目 录 中 创建 , 图 13-12 中 的 子 目录 SubDIR 创 建 于 一 个 全 新 的 FAT32 文 件 系 统 的 根 目 录 


下 ， 而 且 我 们 在 子 目 录 SubDIR 里 还 创建 了 一 个 名 为 A .tx 


会 名 称 
DD subnTR 


t 的 空 文件 。 


大 小 文件 类 型 属性 ”短文 件 名 修改 时 间 创建 时 间 
文件 夹 SUBIDIR 2016-09-19 13:38:06 2016-09-19 13:38:05 
0 1 2 3 4 5 6 7 89aBCD E F0123456789ABCDEF 


Offset 
000305000 
000305010 
000305020 
000305030 


41 53 00 75 00 62 00 44 00 49 00 OF 00 AD 52 00 


00°00 FF FE FF FE FF FE RE FF O00 .00 -EE FF FF RE 


53 55 42 44 49 52 20 20|20 20 20 10 00 93 C2 6C 
33 49 33 49 00 00 C3 6C 33 49 03 00 00 00 00 00 


图 13-12 目录 项 数据 截图 2 


AS.u.b.D.I...-R. 


SUBDIR ， 
3131. .13I 
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根据 图 13-12 记 录 的 目录 项 数据 可 知 ，SubDIR 子 目录 的 起 始 复 号 为 0003h。 进 入 SubDIR 子 目录 ， 
图 13-13 显 示 了 SubDIR 子 目录 中 的 全 部 目录 项 数据 ， 此 处 共有 三 个 有 效 目录 项 ， 它 们 分 别 是 A.txt、 
和 . .。 其 中 的 .目录 的 起 始 篮 号 为 0003h， 这 与 SubDIR 子 目录 的 起 始 复 号 数值 相同 ; 而. .目录 的 起 始 
簇 号 为 0000h， 经 过 反复 测试 和 验证 ， 发 现 . .目录 的 起 始 徐 号 应 该 与 父 目录 的 起 始 艇 号 数值 相同 ， 此 
处 的 起 始 簇 号 0000h 应 该 代表 根 目 录 的 起 始 簇 号 。 


名 称 大 小 “文件 类 型 属性 ”短文 件 名 修改 时 间 易 创建 时 间 
站 xt 0 B 文本 文档 A 上 TXT 2016-09-19 13:38:54 2016-09-19 13:38:52 
Offset 0 1 2 3 4 5 6 718 9 A BC D E F|0123456789ABCDEF 
000306000 |2E 20 20 20 20 20 20 20 20 20 20 10 00 93 C2 6C .hl 


000306010 133 49 33 49 00 00 C3 6C 33 49 03 00 00 00 00 00| 3131..8131...... 


000306030|33 49 33 49 00 00 C3 6C 33 49 00 00 00 00 00 00| 3I3I..813I...... 
000306040 E5 BO 65 FA 5E 87 65 2C 67 87 65 OF 00 D2 63 68 as*eu^.evg.e..0ch 
000306050 2E 00 74 00 78 00 74 00 00 00 00 00 FF FF FF FF ..t.x.t.... .VYY 
000306060 E5 C2 BD A8 CE C4 7E 31 54 58 54 20 00 56 DA 6C 8AY IA~1TXT .VUl 
000306070 33 49 33 49 00 00 DB 6C 33 49 00 00 00 00 00 00 3I3I..U13I...... 
000306080 |41 20 20 20 20 20 20 20 54 58 54 20 10 56 DA ebCIA TXT .VUl 


000306090 133 49 33 49 00 00 DB 6C 33 49 00 00 00 00 00 00| 3I3I..U13I...... 
图 13-13 ”目录 项 数据 截图 3 


最 后 再 以 一 个 名 为 ABCDEFGHIJKLMNOPQRSTUVWXYZ 0123456789.txt 的 文件 为 例 ， 来 对 长 目 
录 项 的 结构 和 创建 过 程 加 以 补充 说 明 。 此 文件 创建 于 FAT32 文 件 系统 的 根 目 录 下 ,图 13-14 是 其 目录 项 
的 数据 截图 。 


会 名 称 大 小 文件 类 型 属性 短文 件 名 修改 时 间 创建 时 间 

时 MBCDEFGHIJELMNOPQRSTUVWXYZ 0123456789. txt 0 B 文本 文档 A ABCDEF"1. TXT 2016-09-20 11:10:20 2016-09-20 11:10:18 
Offset 0 1 2 3 4 5 6 7 8 9 A BC D E F0123456789ABCDEF 

000305000 ES5 BO 65 FA 5E 87 65 2C 67 87 65 OF 00 D2 63 68 é&°ei^.e,g.e..0ch 

000305010 2E 00 74 00 78 00 74 00 00 00 00 00 FF FF FF FF ..t.x.t..... 沪 RH 

000305020 E5 C2 BD A8 CE C4 7E 31 54 58 54 20 00 3A 49 59 8A%" IA~1TXT .:IY 

000305030 34 49 34 49 00 00 4A 59 34 49 00 00 00 00 00 00 4I4I..JY4I 
000305040|44 78 00 74 00 00 00 FF FF FF FF OF 00 27 FF FF|Dx.t.. .yy 
000305050|FF FF FF FF FF FF FF FF FF FF 00 00 FF FF FF FF Vy.. 
000305060|o3 20 00 30 00 31 00 32 00 33 00 OF 00 27 34 00|. .0.1.2.3.. 
000305070|35 00 36 00 37 00 38 00 39 00 00 00 2E 00 74 00|5.6.7.8.9... 
000305080 |02 4E 00 4F 00 50 00 51 00 52 00 OF 00 27 53 00| .N.0.P.Q.R.. 


000305090154 00 55 00 56 00 57 00 58 00 00 00 59 00 SA O00|T.U.V.W.X. 
0003050A0 |01 41 00 42 00 43 00 44 00 45 00 OF 00 27 46 00| .A.B.C.D.E 
0003050B0 147 00 48 00 49 00 4A 00 4B 00 00 00 4C 00 4D 00|G.H.I.J.K...L. 
0003050C0 |41 42 43 44 45 46 7E 31 54 58 54 20 00 3A 49 59| ABCDEF~1TXT .: 
0003050D0 |34 49 34 49 00 00 4A 59 34 49 00 00 00 00 00 00| 4I4I..JY4I.. 
0003050E0 00 00 00 00 00 00 00 00 00 00 00 00 
0003050F0 00 00 00 00 00 00 00 00 00 00 00 00 
000305100 00 00 00 00 00 00 00 00 00 00 00 00 
000305110 00 00 00 00 00 00 00 00 00 00 00 00 


图 13-14 ”目录 项 数据 截图 4 


从 图 13-14 中 可 以 看 出 , 短 目录 项 与 长 目录 项 在 物理 位 置 上 紧密 相 邻 , 短 目 录 项 并 位 于 长 目录 项 数 
组 之 后 。 长 目录 项 数组 共有 4 个 元 素 ( 目录 项 )， 这 些 目录 项 保存 着 完整 的 文件 名 ， 而 短 目 录 项 只 保存 
着 经 过 唯一 性 转换 后 的 短文 件 名 ， 表 13-11 是 各 目录 项 保存 的 字符 串 值 。 


Y 


t 
3 
. 
P 
M 


4. 
I 
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表 13-11 目录 项 数据 参照 表 
目录 项 类 型 序号 字符 串 校 验 和 
长 目录 项 0x44 xt 0x27 
长 目录 项 0x03 012345689.t 0x27 
长 目录 项 0x02 NOPQRSTUVWXYZ 0x27 
长 目录 项 0x01 ABCDEFGHUKLM 0x27 
短 目录 项 无 ABCDEF~1TXT 无 


长 目录 项 中 的 校 验 和 数值 是 0x27， 该 值 是 将 短文 件 名 ABCDEF~1TXT 带 入 到 公式 (13-3) 中 计算 而 
得 。 代 码 清单 13-1 是 基于 公式 (13-3) 编 写 的 校 验 和 计算 程序 。 


代码 清单 13-1 计算 校 验 和 的 示例 代码 


#include <stdio.h> 
int main() 


{ 


> 
unsigned char string[] 
0x54}; /* “ABCDEF~1TXT” */ 
unsigned char checksum = 
for(i = 0;i<11;i++) 
checksum = ((checksum & 1)?0x80:0) + (checksum 
printf("checksum = %02x\n",checksum ) ; 
return 0; 


} 


以 上 这 些 实例 仅 描 述 了 FAT32 文 件 系统 的 主要 特性 ， 更 多 文件 系统 特 位 


系统 白皮书 自行 学 习 。 


= {0x41,0x42,0x43,0x44,0x45,0x46, 0x7e, 0x31, 0x54, 0x58, 


13.2.3 ”实现 基于 路 径 名 的 文件 系统 检索 功能 


前 文 已 经 对 FAT32 文 件 系统 的 整体 结构 进行 了 介绍 ， 并 通过 大 量 实验 数据 对 至 


+ string[i]; 


还 请 读者 参照 FAT32 文 件 


LE 论 知识 加 以 分 析 、 


验证 和 补充 。 此 刻 ， 相 信 读 者 一 定 有 编写 程序 访问 FAT32 文 件 系 统 的 冲动 ， 那 么 本 节 将 实现 基于 路 径 


名 的 文件 搜索 功能 。 
1. 系统 功能 升级 与 调整 


随 着 第 12 章 对 系统 内 核 的 全 面 升级 ， 现 在 
驱动 程序 访问 FAT32 文 件 系 统 前 ， 我 们 不 妨 先 对 硬盘 驱动 程序 进行 一 番 升 级 改造 。 整 个 升级 过 程 将 分 
为 两 部 分 ， 一 部 分 是 对 硬盘 驱动 的 功能 升级 ， 男 一 部 分 是 对 已 知 功能 问题 的 修正 


@ 硬盘 驱动 升级 
根据 第 12 章 对 信号 量 的 描述 ， 
动 程 序 也 可 以 借助 等 待 队列 来 管理 


待 队列 ， 升 级 后 的 硬盘 驱动 程序 可 借助 进程 调度 功能 让 出 处 到 


硬盘 操作 请 求 队列 结构 体 定义 。 


兰 : 握 . 是. 


吾 有 重 


E 的 内 核 程序 已 经 


有 诸多 新 功能 和 新 特性 。 在 使 


硬盘 


可 借助 等 待 队 列 管理 每 一 个 等 待 资源 的 进程 。 同 样 ， 硬 盘 驱 
访问 硬盘 的 进程 。 所 以 ， 此 次 升级 主要 是 将 原 有 双向 链表 升级 为 等 
器 的 执行 权 。 代 码 清单 13-2 是 升级 后 的 
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代码 清单 13-2 第 13 章 \ 程 序 \ 程 序 13- 八 物理 平台 \kernel\disk.h 


struct block buffer_node 

{ 
unsigned int count; 
unsigned char cmd; 
unsigned long LBA; 
unsigned char * pbuffer; 
void(* end handler) (unsigned long nr, unsigned long parameter); 
wait_queue_T wait_queue; 

}; 

struct request_queue 

+ 
wait_queue_T wait_queue_ list; 
struct block_puffer node *in using; 
long block_ request_count; 


}; 
伴随 着 硬盘 操作 请 求 队列 结构 体 的 升级 ， 一 系列 相关 函数 的 升级 和 调整 将 会 引发 。 下 面 将 按照 驱 
动 程序 操作 人 硬盘 的 函数 调用 顺序 来 讲解 需要 升级 的 相关 函数 。 

本 章 访问 的 FAT32 文 件 系统 位 于 第 二 块 SATA 机 械 硬盘 中 ， 因 此 在 硬盘 驱动 初始 化 期 间 ， 不 但 需要 
初始 化 等 待 队 列 ， 还 需要 将 初始 化 目标 转向 第 二 块 SATA 机 械 硬 盘 ， 详 细 的 硬盘 驱动 初始 化 代码 如 代 
码 清单 13-3 所 示 。 


代码 清单 13-3 ”第 13 章 \ 程 序 \ 程 序 13- 八 物理 平台 \kernel\disk.c 


void disk_ init() 
{ 


struct IO_APIC_RET_entry entry; 

entry.vector = 0x2f; 

register_irq(0x2f, &entry , &disk handler, (unsigned long)&disk request, 
&disk_int_controller, "diskl"); 

io_out8 (PORT_ DISK1_ALT_STA_CTL,0); 

wait_ queue_ init (&disk_ request.wait_ queue list,NULL); 

disk_request.in using = NULL; 

disk_request.block_ request_count = 0; 


} 

在 这 段 代码 中 ， 曾 经 定义 的 全 局 变量 disk_f1lags 已 经 废弃 删除 ， 现 在 采用 等 待 队列 和 进程 调度 
函数 schedqule 取 而 代 之 。 

依据 本 系统 的 硬盘 驱动 架构 ， 代 码 清 单 13-4 和 代码 清单 13-5 将 负责 创建 和 初始 化 硬盘 操作 请 求 
项 ， 并 将 请 求 项 加 入 到 硬盘 操作 请 求 队列 中 ， 以 等 待 硬盘 驱动 程序 处 理 访问 请 求 。 
代码 清单 13-4 ”第 13 章 \ 程 序 \ 程 序 13- 作 物理 平台 \kernel\disk.c 

struct block_ buffer_ node * make_ request (long cmd,unsigned long blocks,1long 


count,unsigned char * puffer) 


{ 


struct block_ buffer node * node = (struct block buffer node *)kmalloc(sizeof 
(struct block_ buffer_ node),o0); 
wait_queue_ init (&node->wait_ queue,current); 
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代码 清单 13-5 “第 13 章 \ 程 序 \ 程 序 13-1\ 物 理 平 台 \kernelvdisk.c 


void add_ request (struct block_ buffer node * node) 


{ 


list_adqd to _ before(&disk request.wait queue list.wait_ list,é&node->wait_queue 
wait_list); 
disk_request.block_ request_count++; 


} 


在 函数 make_request 创 建 硬盘 操作 请 求 项 的 过 程 中 , 我 们 通过 调用 wait_queue_init 消 数 将 申 
请 访问 磁盘 的 进程 记录 在 请 求 项 中 ， 以 便 在 操作 请 求 执行 结束 后 唤醒 此 进程 。 


五 


当 硬盘 操作 请 求 项 被 驱动 程序 受理 后 ， 驱 动 程序 会 把 请 求 项 从 请 求 队列 中 移 除 ， 再 将 其 保存 在 


in_using 成 员 变 量 中 ， 随 后 开始 解析 操作 请 求 ， 并 向 硬盘 发 送 指令 和 数据 。 代 码 清单 13-6 是 指令 和 
数据 发 送 过 程 需要 升级 的 程序 。 


代码 清单 13-6 第 13 章 \ 程 序 \ 程 序 13- 才 物理 平台 \kernel\disk.c 


long cmgd_out() 
{ 


wait_queue_T *wait_queue_ tmp = container of(list next(&disk_ request.wait_queue 
list.wait_list),wait_ queue_T,wait_list); 

struct block_ buffer node * node = disk request.in using = container of (wait_ 
queue_tmp,struct block_ buffer node,wait_queue); 

list_del(&disk request.in using->wait _ queue.wait_list); 

disk_request.block_ request_count--; 


伴随 着 指令 和 数据 发 送 结束 ， 当 前 进程 将 被 设置 为 不 可 屏蔽 中 断 状态 ， 然 后 执行 schedule 函 数 
放弃 处 理 器 的 执行 权 , 这 是 wait_for_finish 函 数 升级 后 的 功能 具体 程序 实现 请 参见 代码 清单 13-7 


代码 清单 13-7 第 13 章 \ 程 序 \ 程 序 13- 八 物理 平台 \kernel\disk.c 


void wait_for_ finish() 


{ 


current->state = TASK_UNINTERRUPTIBLE; 
schedule (); 


} 


硬盘 一 旦 执行 完 操 作 请 求 ， 会 立即 向 处 理 器 发 送 中 断 信 和 号。 接着， 
请 求 项 的 预 设 值 去 调用 read_handler、writ 


单 13-8 是 这 些 函 数 升级 后 的 样子 。 


! 贡 处理 函数 会 根据 硬盘 操作 
_handqler 或 other_handqler 国 数 进 行 处 理 。 代 码 清 


代码 清单 13-8 ”第 13 章 \ 程 序 \ 程 序 13-1\ 物 理 平 台 \kernelvdisk.c 


void read handler (unsigned long nr, unsigned long parameter) 


{ 


struct block buffer node * node = ((struct request_queue *)parameter) 
if (io_in8 (PORT_ DISK1_STATUS_CMD) & DISK_STATUS_ERROR) 


Color_printk (RED, BLACK, "read_ handler:%#010x\n",io_ in8 (PORT DISK1_ ERR_ FEATURE)); 
else 


->in_ using; 


port_insw(PORT_DISK1_DATA,node->buffer,256); 
end_request (node); 


13.2 ”解析 FAT32 文件 系统 535 


void write handler (unsigned long nr, unsigned long parameter) 
{ 
struct block_ buffer node * node = ((struct request_ queue *)parameter)->in using; 
if(io_in8 (PORT_ DISK1_STATUS_CMD) & DISK_STATUS_ERROR) 
Color_printk (RED, BLACK, "write handler:%#010x\n",io_ in8 (PORT_ DISK1_ ERR FEATURE)); 
end_request (node); 


} 


void other_ handler (unsigned long nr, unsigned long parameter) 
{ 
struct block_ buffer node * node = ((struct request_ queue *)parameter)->in using; 
if(io_in8 (PORT_ DISK1_STATUS_CMD) & DISK_STATUS_ERROR) 
Color_printk (RED, BLACK, "other handler:%#010x\n",io_ in8 (PORT_ DISK1_ ERR_ FEATURE)); 
else 
port_insw(PORT_DISK1_ DATA,node->buffer,256); 
end_request (node); 


} 

当 这 些 函 数 执行 结束 , 它们 会 统一 调用 ena_reauest 函数 进行 善后 工作 ， 即 唤醒 等 待 访问 结束 的 
进程 ， 并 释放 硬盘 操作 请 求 项 占用 的 空间 。 如 果 硬盘 操作 请 求 队列 中 仍 有 请 求 项 ， 则 继续 执行 下 一 个 
请 求 项 ， 完 整 代码 实现 如 代码 清单 13-9。 


代码 清单 13-9 ”第 13 章 \ 程 序 \ 程 序 13- 八 物理 平台 \kernel\disk.c 


void end_ request (struct block_ buffer node * node) 


{ 


if (node == NULL) 
Color_printk (RED,BLACK, "end_request error\n"); 


node->wait_queue.tsk->state = TASK_RUNNING; 
insert_task_queue (node->wait_ queue.tsk); 
node->wait_queue.tsk->flags |= NEED_SCHEDULE; 


kfree((unsigned long *)disk_ request.in using); 
disk_request.in using = NULL; 


if(disk_request.block_ request_count) 
cmaq_out (); 
} 


至 此 ,硬盘 驱动 程序 的 升级 工作 暂 告 一 段落 。 

@ 系统 功能 修正 

伴随 着 硬盘 驱动 程序 的 升级 ， 我 们 在 测试 过 程 中 发 现 了 一 些 bug 和 可 以 优化 的 地 方 ， 此 处 将 一 并 
补充 说 明 。 

根据 修正 功能 的 重要 性 ,首先 要 向 系统 调用 API 返 回 代码 插入 sTI 汇 编 指令 使 能 中 断 。 虽然 我 们 在 
进入 系统 调用 时 已 经 使 能 中 断 ， 但 如 果 此 时 发 生 进 程 调度 ， 而 在 另 一 个 进程 的 执行 期 间 又 触发 中 断 ， 
进而 执行 软 中 断 处 理 程序 ， 那 么 在 软 中 断 处 理 程序 执行 结束 时 ， 中 断 将 处 于 禁止 状态 。 倘 若 处 理 咒 在 
中 断 禁止 状态 下 切换 回执 行 系统 调用 的 进程 , 那么 处 理 融 将 无 法 再 处 理 中 断 请 求 , 图 13-15 描 述 了 此 bug 
的 再 现 过 程 。 


十 
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进程 1 进程 2 


六 sti 三 上 晰 上 半 部 
system call 系统 调用 1 …… Pp 断 | sti() 
schedule0) 中 断 下 半 部 一 990 > ... 
软 中 断 
a 
进程 抢占 ， 执 行 schedule() 
应 用 后 


图 13-15 ”系统 调用 的 bug 再 现 示意 图 


根据 上 述 bug 再 现 过 程 描述 ， 特 在 代码 清单 13-10 所 示 位 置 处 插入 sTI 汇 编 指令 ， 以 保证 在 系统 调 


j 返 回 后 处 理 器 仍然 能 处 理 中 断 请 求 。 
代码 清单 13-10 ”第 13 章 \ 程 序 \ 程 序 13-1\ 物 理 平台 \kernelventry.S 


ENTRY (ret_system call) 


addq SOx38, %Srsp 
sti 

.byte 0x48 
sysexit 


除了 系统 调用 功能 中 存在 bug 外 ， 在 进程 调度 函数 中 也 存在 着 bug。 在 进程 等 待 某 些 资源 期 间 ， 


系统 可 能 会 先 将 进程 置 于 非 TASK_RUNNING 运 行 状态 ， 再 通过 函数 schedqule 放 弃 进 程 的 处 理 顺 执 
行 权 。 对 于 schedule 函 数 而 言 ， 它 目前 只 能 把 虚拟 运行 时 间 过 长 的 进程 调度 出 处 理 器 ， 却 无 法 将 
非 运 行 状态 的 进程 调度 出 处 理 器 ， 这 势必 会 造成 进程 调度 器 无 法 将 等 待 资源 的 进程 从 处 理 器 中 换 
出 。 因 此 ， 必 须 在 schedule 函 数 的 调度 决策 位 置 处 加 入 进程 状态 检测 代码 ， 具 体 程序 实现 请 参见 


代码 清单 13-11。 
代码 清单 13-11 第 13 章 \ 程 序 \ 程 序 13- 八 物理 平台 \kernel\schedule.c 
void schedule() 


current->flags &= ~NEED_SCHEDULE; 
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tsk = get_next_task(); 

Color_printk (RED,BLACK, "RFLAGS:%#0181lx\n",get_rflags ()); 

Color_printk (RED,BLACK, "#schedule:%1ld#%ld|%ld\n",jiffies,current->vrun time, 
tsk->vrun _ time); 

if (current->vrun time >= tsk->vrun time || current->state != TASK_RUNNING) 


虽然 在 之 前 的 开发 过 程 中 未 曾 关 注 过 处 理 器 的 功 耗 问 题 ， 但 它 却 是 一 个 非常 重要 的 参数 指标 。 尽 
管 现 在 无 法 实现 系统 休眠 、 待 机 等 低 功 耗 功能 ， 但 我 们 还 是 应 该 做 一 些 力所能及 的 事情 来 降低 处 理 器 
功 耗 ， 比 如 在 一 些 死 循 环 代码 中 加 入 HLT 或 AUSE 汇 编 指 令 来 减少 处 理 器 的 运行 功 耗 。 

目前 可 优化 的 代码 只 有 trap.c 文 件 中 的 所 有 异常 处 理 函 数 ， 现 以 do_qaivide_error 孙 数 为 例 来 展 
示 追 加 低 功 耗 代码 的 位 置 ， 详 细 程 序 如 代码 清单 13-12 所 示 。 


代码 清单 13-12 第 13 章 \ 程 序 \ 程 序 13- 八 物理 平台 \kernel\trap.c 


void do_divide error(struct pt_regs * regs,unsigned long error_code) 


{ 


Color_printk (RED,BLACK, "do_divide error (0),ERROR_ CODE:%#0181x,RSP:%#0181x,RIP: 
%S#0181x,CPU: S$#0181x\n",error_code , regs->rsp , regs->rip , SMP_cpu_ id()); 
while(1) 
je 
} 


在 优化 代码 降低 处 理 器 功 耗 的 过 程 中 ， 请 读者 注意 低 功 耗 汇 编 指令 的 执行 权限 。 例 如 ， 运 行 于 3 
特权 级 的 user_level_function 函 数 无 法 在 死 循环 程序 中 调用 hlit 函数 来 降低 处 理 器 功 耗 , 因为 Intel 
官方 白皮书 已 明确 指出 HLT 汇 编 指 令 只 能 运行 在 0 特权 级 下 。 

最 后 ， 为 了 让 运行 效果 更 加 直观 ， 这 里 已 关闭 HPET 的 中 断 请 求 转 发 功能 ， 并 将 init 进 程 迁移 回 
BSP 处 理 器 执行 。 

2. 检索 FAT32 文 件 系统 基础 数据 

在 完成 硬盘 驱动 程序 的 升级 工作 后 ， 现 在 就 可 编写 程序 检索 FAT32 文 件 系统 的 基础 数据 。 首 先 ， 
我 们 必须 根据 MBR 扇 区 中 记录 的 硬盘 分 区 表 ， 来 确定 FAT32 文 件 系统 所 在 磁盘 分 区 。 为 了 便于 分 析 和 
检索 硬盘 分 区 表 项 这 里 分 别 为 硬盘 分 区 表 及 表 项 定义 了 结构 体 , 代码 清单 13-13 是 两 者 的 结构 体 定 义 


代码 清单 13-13 ”第 13 章 \ 程 序 \ 程 序 13- 八 物理 平台 \kernel\fat32.h 


struct Disk_ Partition Table_ Entry 
{ 
unsigned char flags; | 
unsigned char start_head; 
unsigned Short start_sector 6 //0~5 
start_cylinder 10s //6~15 
unsigned char type; 
unsigned char end_head; 
unsigned short end_sector N63 //0~5 
end_cylinder S10 //6~15 
unsigned int start_LBA; 
unsigned int sectors_limit; 
}_attribute _((packed)); 


= 


A 
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struct Disk_ Partition_ _ Table 


{ 


unsigned char BS_Reserved[446]; 

struct Disk_ Partition Table _ Entry DPTE[4]; 

unsigned short BS_TrailSig; 
}_attribute _((packed)); 


这 段 代 码 中 的 结构 体 Disk_Partition_ Table 1] 
项 结构 进行 学 习 。 而 结构 体 
R 扇 区 里 的 所 有 数据 ， 其 中 的 DPTI 


记录 的 硬盘 分 
结构 吉 括 了 MB 


区 表 : 


x 


变量 只 是 为 了 在 强 1 


我 们 通过 对 硬盘 分 区 表 项 的 解析 ， 可 检索 出 FAT32 文 件 系 统 (分 
扇 区 数目 。 随 后 ， 便 可 从 FAT32 文 件 系统 的 保留 
代码 清单 13-14 分 别 为 FAT32 文 件 系统 的 引导 扇 


BootSector 和 struct FAT32_FSInfo, 


忆 区 号 和 


由 转换 阶段 占 位 使 用 ， 并 无 其 他 实际 作用 。 


entry 用 于 描述 硬盘 分 
Disk_Partition_Table 描 述 的 则 蚌 硬 盘 分 
E[4] 数 组 成 员 变 量 


区 表 项 , 读者 可 参照 表 7-3 
区 表 ， 该 
区 表 的 4 个 表 项 ， 其 他 成 员 


是 便 盘 分 


区 类 型 ID 值 为 0Bh ) 的 起 始 LBA 
区 域 中 提取 出 基础 数据 。 


区 和 


FSInfo 扁 区 定义 了 结构 体 struct FAT32_ 


这 两 个 结构 体 是 依据 表 13-1 和 表 13-2 设 计 出 来 的 。 


代码 清单 13-14 ”第 13 章 \ 程 序 \ 程 序 13- 败 物理 平台 \kernel\fat32.h 


struct FAT32_BootSector 


{ 


unsigned char BS_jmpBoot[3]; 
unsigned char BS_OFEMName[8]; 
unsigned Short BPB_ BytesPerSec; 
unsigned char BPB_SecPerClus; 
unsigned short BPB_RsvdSecCnt; 
unsigned char BPB_NumFATs; 
unsigned Short BPB_RootENntCnt; 
unsigned short BPB_TotSec16; 
unsigned char BPB_Media; 
unsigned short BPB_FATSz16; 
unsigned Short BPB_SecpPerTrk; 
unsigned short BPB_NumHeads; 
unsigned int BPB_ HigddSec; 
unsigned int BPB_TotSec32; 
unsigned int BPB_FATSz32:; 
unsigned Short BPB_ExtFlags; 
unsigned short BPB_FSVer; 
unsigned int BPB_ RootClus; 
unsigned short BPB_FSInfo; 
unsigned short BPB_BkBootSec; 
unsigned char BPB_Reserved[12]; 
unsigned char BS_DrvNum; 
unsigned char BS_Reservedl; 
unsigned char BS_BootSig; 
unsigned int BS_VolID; 

unsigned char BS_VolLab[11]; 
unsigned char BS_FilSysTypel[8]; 
unsigned char BootCode[420]; 
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unsigned short BS_TrailSig; 
}_ attribute _((packed)); 


struct FAT32_FSInfo 

{ 
unsigned int FSI_LeadSig; 
unsigned char FSI_Reserved1{[480]; 
unsigned int FSI_StrucSig; 
unsigned int FSI_Free_ Count; 
unsigned int FSI_Nxt_Free; 
unsigned char FSI_Reserved2[12]; 
unsigned int FSI_TrailSig; 

}__attribute_ _((packed)); 


有 了 上 述 结构 体 定 义 ， 我 们 只 需 正确 读 取出 扇 区 内 的 数据 ， 并 将 其 转化 成 对 应 的 数据 结构 就 可 取 
得 FAT32 文 件 系统 的 基础 数据 ， 具 体 程序 实现 如 代码 清单 13-15 所 示 。 
代码 清单 13-15 ”第 13 章 \ 程 序 \ 程 序 13- 八 物理 平台 \kernel\fat32.c 


void DISK1_FAT32_FS_init() 
{ 


int i; 

unsigned char pbuf[512]; 

struct Disk_ Partition_ Table DPT; 

struct FAT32_BootSector fat32_bootsector; 
struct FAT32_FSInfo fat32_fsinfo; 


memset (buf,0,512); 

IDE_device_ operation.transfer (ATA_READ_ CMD, 0x0,1, (unsigned char *)buf); 

DPT = *(struct Disk_Partition Table *)buf; 

// for(i = 0 ;i < 512 ; i++) 

Lh. color_printk (PURPLE,WHITE, "%02x",buf [i]); 

Color_printk (BLUE,BLACK, "DPTE[0] start_ LBA:%#018lx\ttype:%#0181lx\n", 
DPT.DPTE[0] .start_LBA,DPT.DPTE[0] .type); 


memset (buf,0,512); 

IDE_device_ operation.transfer (ATA_READ_ CMD,DPT.DPTE[0] .start_LBA,1, (unsigned 
CHar. wbuE)s 

fat32_bootsector = *(struct FAT32_BootSector *)buf; 

// for(i = 0 ;i < 512 ; i++) 

4 color_printk (PURPLE,WHITE, "%$02x",buf [i]); 

color_printk (BLUE, BLACK, "FAT32 Boot Sector\n\tBPB_FSInNnfo:%#0181x\n\tBPB BkBootSec: 
S$#0181x\n\tBPB_TotSec32:%#018]x\n",fat32_bootsector.BPB_FSInfo, fat32_ 
bootsector.BPB_BkBootSec, fat32_bootsector.BPB_TotSec32); 


memset (buf,0,512); 

IDE_device_operation.transfer (ATA_READ_ CMD,DPT.DPTE[0] .start_LBA + 
fat32_bootsector.BPB_FSInfo,1, (unsigned char *)buf); 

fat32_fsinfo = *(struct FAT32_FSINnfo *)buf; 

// “£60r(E .0. 31 S12 ; 主 # 寺 ) 

7 color_printk (PURPLE,WHITE, "%02x",buf [i]); 

Color_printk (BLUE,BLACK, "FAT32 FSInfo\n\tFSI_LeadSig:%#0181x\n\tFSI_StrucSig: 
S$#0181x\n\tFSI_Free _ Count:%#0181lx\n",fat32_fsinfo.FSI_LeadSig,fat32_ 
fsinfo.FSI_StrucSig,fat32_fsinfo.FSI_Free_ Count); 
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这 有 段 程序 借助 硬盘 操作 抽象 接口 TDE_device_operation 的 transfer 方 法 ， 从 硬盘 里 依次 读 取 
出 MBR 遍 区 、FAT32 文 件 系统 引导 扇 区 和 FSInfo 扁 区 里 的 数据 ， 并 从 这 些 结构 中 摘录 出 一 些 重要 数据 
信息 加 以 显示 。 相 信 在 实现 了 硬盘 驱动 程序 后 ， 理 解 这 段 代 码 不 会 吃力 。 

函数 DISK1_FaAT32_FS_init 的 调用 位 置 并 不 在 内 核 主 程序 中 ， 而 是 位 于 sys_printf 图 数 内 ， 
这 是 充分 考虑 到 此 类 函数 最 终 将 会 封装 在 系统 调用 API 里 ， 而 提前 做 的 准备 ， 代 码 清单 13-16 是 函数 的 
调用 位 置 。 


代码 清单 13-16 ”第 13 章 \ 程 序 \ 程 序 13-1\ 物 理 平台 \kernel\task.c 


unsigned long sys_printf(struct pt_regs * regs) 


{ 


color_printk (BLACK,WHITE, (char *)regs->rdi); 


Color_printk (RED,BLACK, "FAT32 init \n"); 
DISK1_FAT32_FS_ init(); 


return 1; 


} 

最 后 ， 只 要 在 内 核 主 程序 中 恢复 函数 aisk_init 和 task_init 的 调用 代码 ， 即 可 实现 FAT32 文 件 
系统 的 基础 数据 检索 功能 。 代 码 清单 13-17 记 录 了 这 两 个 函数 的 调用 位 置 。 
代码 清单 13-17 第 13 章 \ 程 序 \ 程 序 13- 才 物理 平台 \kernel\main.c 


void Start_Kernel (voigqd) 


color_printk (RED,BLACK, "mouse init \n"); 
mouse_init(); 


Color_printk (RED,BLACK, "disk init \n"); 


disk_init(); 


SCLC)S 


至 此 ，FAT32 文 件 系 统 的 基础 数据 检索 代码 已 经 编写 完毕 ， 图 13-16 是 程序 的 运行 效果 ， 读 者 可 通 
过 对 比 图 13-5 与 检索 出 的 数据 来 验证 程序 的 正确 性 。 
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)1 Integrated APIC 


)000000000010: 
00000000000 
000000000000 
)00000001fe00000 


)00000001fe00000 


午时 本 中 本 本 
00011b42f 


图 13-16 FAT32 文 件 系 统 的 基础 数据 检索 效果 图 


3. 基于 路 径 名 搜索 文件 

经 过 文件 系统 基础 数据 检索 程序 的 洗礼 ， 想 必 读 者 已 经 对 文件 系统 的 访问 过 程 有 了 初步 认识 和 设 
计 思 路 ， 那 么 本 节 就 来 实现 基于 路 径 名 的 文件 搜索 功能 ， 这 是 文件 系统 驱动 模块 的 一 个 重要 功能 。 

鉴于 目前 的 硬盘 驱动 程序 每 次 只 能 操作 一 个 遍 区 ， 而 FAT32 文 件 系 统 却 是 以 簇 作为 数据 存储 单位 
的 。 为 了 提高 驱动 程序 的 硬盘 访问 效率 ， 这 里 将 再 次 升级 硬盘 驱动 程序 以 实现 一 次 性 访问 多 个 连续 的 
根据 ATIA 规 范 的 描述 ， 在 PIO 模 式 下 ， 当 使 用 控制 命令 一 次 性 访问 多 个 连续 的 扇 区 时 ， 硬 盘 会 在 
每 个 扇 区 操作 结束 后 向 处 理 需 发 送 一 个 中 晰 信号 ， 以 通知 处 理 器 为 操作 下 一 个 扇 区 做 准备 。 好 在 设计 
硬盘 操作 请 求 项 时 ,我们 已 为 硬盘 操作 请 求 项 准备 了 记录 操作 扁 区 数量 的 count 成 员 变 量 , 借助 该 成 
员 变 量 就 可 实现 一 次 操作 多 个 连续 的 磁盘 扇 区 ， 即 每 次 执行 硬盘 读 / 写 中 断 处 理 函 数 时 递减 count 计 数 
值 , 并 将 缓冲 区 的 基地 址 向 后 移动 一 个 遍 区 大 小 , 代码 清单 13-18 是 读 / 写 中 断 处 理 函 数 升级 后 的 样子 。 


代码 清单 13-18 ”第 13 章 \ 程 序 \ 程 序 13- 和 \ 物 理 平台 \kernel\disk.c 


void read handler (unsigned long nr, unsigned long parameter) 


{ 


struct block_ buffer node * node = ((struct request_ queue *)parameter)->in using; 


if (io_in8 (PORT_DISK1_STATUS_CMD) & DISK_STATUS_ERROR) 


Color_printk (RED, BLACK, "read_ handler:%#010x\n",io_ in8 (PORT_ DISK1_ ERR FEATURE)); 
else 


port_insw(PORT_DISK1_DATA,node->buffer,256); 


node->count--;} 
if (node->count) 
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node->buffer += 512; 
return; 


} 


end_request (node);} 


void write handler (unsigned long nr, unsigned long parameter) 


{ 


} 


struct block_ buffer node * node = ((struct request queue *)parameter)->in using; 


if(io_in8 (PORT_ DISK1_STATUS_CMD) & DISK_STATUS_ERROR) 
Color_printk (RED, BLACK, "write handler:%#010x\n",io_ in8 (PORT_ DISK1 FERR_ FEATURE)); 


node->count--; 
f (node->count) 


node->buffer += 512; 
while(!(io_in8(PORT_ DISK1_STATUS_CMD) & DISK_STATUS_REQ)) 
nop(); 
port_outsw(PORT_DISK1_DATA,node->buffer,256); 
return; 
} 


end_request (node); 


昌 然 本 次 升级 的 代码 量 不 大 ,但 这 却 大 大 提高 了 硬盘 的 读 写 效 率 。 经 过 此 番 修 改 ， 现 在 我 们 可 以 


安心 地 编 


写 文 件 搜索 程序 。 


遵照 本 书 以 往 的 功能 实现 步骤 ,首先 应 该 为 长 / 短 目 录 项 定义 结构 体 和 宏 常量 , 借助 这 些 结构 可 快 


速 、 直 观 地 从 长 / 短 目录 项 中 提取 出 数据 信息 。 代 码 清单 13-19 是 长 / 短 目 录 项 的 相关 结构 定义 ， 读 者 可 
结合 表 13-4 和 表 13-7 描 述 的 长 / 短 目 录 项 结构 进行 学 习 


代码 清单 13-19 ”第 13 章 \ 程 序 \ 程 序 13-2\ 物 理 平台 \kernel\fat32.h 


#define ATTR_READ_ONLY (1 << 0) 
#define ATTR_HIDDEN (TAR 
#define ATTR_SYSTEM (2 
#define ATTR_VOLUME_ID (TE 
#define ATTR_DIRECTORY (1 << 4) 
#define ATTR_ARCHIVE Cl < 5) 
#define ATTR_LONG_NAME (ATTR_READ_ONLY | ATTR_HIDDEN | ATTR_SYSTEM | 


ATTR_VOLUME_ID) 


struct FAT32_Directory 


{ 


unsigned char DIR_ Name[11]; 
unsigned char DIR_ Attr; 
unsigned char DIR_NTRes; 
unsigned char DIR_ CrtTimeTenth; 
unsigned short DIR_ CrtTime; 
unsigned short DIR CrtDate; 
unsigned short DIR_ LastAccDate; 
unsigned Short DIR_ FstClusHI; 
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unsigned short DIR_ WrtTime; 
unsigned short DIR_ WrtDate; 
unsigned short DIR_FstClusLo; 
unsigned int DIR_ FileSize; 


}__attribute_ _((packed)); 
#define LOWERCASE_BASE (8) 
#define LOWERCASE_EXT (16) 


struct FAT32_LongDirectory 
{ 


unsigned char LDIR_Orgd; 
unsigned short LDIR Namel[5]; 
unsigned char LDIR Attr; 
unsigned char LDIR_Type; 
unsigned char LDIR_Chksum; 
unsigned short LDIR_ Name2[6]; 
unsigned short LDIR_FstClusLo; 
s 


unsigned short LDIR_ Name3[2]; 
)_ attribute _((packed)); 


现在 ，FAT32 文 件 系统 所 涉及 的 数据 结构 器 有 与 之 对 应 的 结构 体 定义 。 为 了 减少 其 他 函数 访问 硬 
盘 的 次 数 ， 代 码 清 单 13-20 为 诸如 引导 鹿 区 、FsInfo 扇 区 等 常用 结构 以 及 某 些 经 常 参与 计算 的 数值 开 
辟 了 全 局 存储 空间 ( 全 局 变量 )。 


代码 清单 13-20 ”第 13 章 \ 程 序 \ 程 序 13- 和 \ 物 理 平台 \kernel\fat32.c 


struct Disk_ Partition_ Table DPT; 
struct FAT32_BootSector fat32_bootsector; 
struct FAT32_FSInfo fat32_fsinfo; 


r 


unsigned long FirstDataSector = 0; 
unsigned long BytesPerClus = 0; 

unsigned long FirstFAT1lSector = 0; 
unsigned long FirstFAT2Sector = 0; 


这 上段 代码 中 的 全 局 结构 体 变量 已 在 检索 文件 系统 基础 数据 时 使 用 过 ， 这 里 无 需 再 做 介绍 。 此 处 仅 
对 新 定义 的 4 个 全 局 变量 进行 特殊 说 明 ， 表 13-12 是 它们 的 功能 介绍 。 


表 13-12 全 局 变量 功能 描述 表 


全 局 变量 名 功能 描述 全 局 变量 名 功能 描述 
FirstDataSector 数据 区 起 始 扇 区 号 FirstFAT1Sector FAT1 表 起 始 扇 区 号 
BytesPerClus 每 复 字 节 数 FirstFAT2Sector FAT2 表 起 始 扇 区 号 


表 13-12 描 述 的 全 局 变量 均 在 DISK1_FaAT32_FS_init 函 数 内 被 初始 化 赋值 ， 代 码 清单 13-21 是 详 
细 的 初始 化 赋值 过 程 。 


代码 清单 13-21 第 13 章 \ 程 序 \ 程 序 13- 和 物理 平台 \kernel\fat32.c 


void DISK1_FAT32_FS_init() 
{ 


TI 
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} 


为 了 对 表 13-12 中 的 全 局 变 


unsigned char buf[512]; 
struct FAT32_Directory * dentry = NULL; 


FirstDataSector = DPT.DPTE[0] .start_LBA + fa 
fat32_bootsector.BPB_FATSZ32 * fat32_boo 
FirstFAT1Sector = DPT.DPTE[0] .start_LBA + fa 


t32_bootsector.BPB_RsvdSecCnt + 
tsector.BPB_NumFATSs; 
t32_bootsector.BPB_RsvdSecCnt; 


FirstFAT2Sector = FirSstFAT1Sector + fat32_bootsector.BPB_ FATSzZ32; 


BytesPerClus = fat32_bootsector.BPB SecperClus 


dentry = path walk("/JIOL123L1l1liwos/89AIOlej 
if(dentry != NULL) 
color_printk (BLUE,BLACK, "Find JKio.txt\nD 


S$#0181x\tDIR_FileSize:%#018]x\n",dent 


FstClusLO,dentry->DIR_ FileSize); 
else 
color_printk(BLUE, BLACK, "Can't find file 


信息 , 并 


* fat32_bootsector.BPB BytespPerSec; 
人 


IR_FstClusHI:%#0181x\tDIR_FstClusLO: 
ry->DIR_FstClusHI,dentry->DIR_ 


NT 


行 初始 化 赋值 , 这 段 代码 从 已 读 取 出 的 基础 数据 结构 中 提取 出 关键 
通过 简单 的 加 法 运 ee 量 所 需 数值 。 随 后 ， 


再 调用 path_walk 捕 数 搜索 指定 目录 下 


SE (路 径 名 为 /JIOL123Llliwos/89AIOlejk.TXT )。 孔 数 path_walk 将 从 FAT32 文 件 系统 根 目录 开 
台 ， 沿 着 形 参 提供 的 路 径 名 逐 级 检索 目录 里 的 目录 项 。 接 下 来 将 围绕 path_walk 函 数 的 功能 实现 逐 段 


为 局 部 变 


J 
代码 清单 13-22 是 path_walk 函 数 的 起 始 部 分 ， 其 中 的 形 参 


name 记 录 着 待 搜索 文件 的 路 径 名 和 文 


dentryname 分 配 临 时 路 径 名 存储 空间 。 
代码 清单 13-22 第 13 章 \ 程 序 \ 程 序 13-2\ 物 理 平台 \kernel\fat32.c 


struc 


{ 


har * tmpname = NULL; 

nt tmpnamelen = 0; 

truct FAT32_Directory *parent = NULL; 
truct FAT32_Directory *path = NULL; 
har * dentryname = NULL; 


(人 


while(*name == '/') 
name++; 


if(!*name) 
return NULL; 


牛 名 。 这 部 分 程序 先 对 形 参 name 进 行 过 滤 ， 跳 过 代表 根 目录 的 符号 ' /' (一 个 或 多 个 )。 紧 接着 ,再 
量 parent 分 配 短 目录 项 结构 的 存储 空间 ( 此 时 保存 着 根 目录 项 )， 同 时 还 为 局 部 变量 


t FAT32_Directory * path walk(char * name,unsigned long flags) 


parent = (struct FAT32_ Directory *)kmalloc(sizeof (struct FAT32_Directory),0); 


dentryname = kmalloc (PAGE 4K_SIZE,0); 


memset (parent,0,sizeof (struct FAT32_Directory)); 


memset (dentryname,0,PAGE 4kK_SIZE); 


parent->DIR_FstClusLO = fat32_bootsector.BPB 


ROOtLCLIS :GD 和 XE ; 


parent->DIR_FstClusHI = (fat32_bootsector.BPB_ RootClus >> 16) & Ox0fff; 
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虽然 根 日 录 没 有 实际 日 录 项 结构 ,但 为 了 便于 代码 实现 ， 此 处 将 根 日 录 项 的 起 始 艇 号 成 员 变 量 初 
始 化 为 fat32_bootsector.BPB_RootClus。 随 后 ， 陈 数 path_walk 将 进入 漫长 的 逐 级 日 录 项 检索 
工作 。 

路 径 名 的 逐 级 搜索 过 程 主要 是 通过 循环 搜索 各 级 日 录 实 现 的 ( 请 读者 不 要 在 内 核 中 递归 散 套 调用 
函数 ， 此 举 可 能 会 消耗 大 量 栈 空间 ， 甚 至 造成 栈 溢出 )， 代 码 清单 13-23 是 搜索 过 程 的 代码 实现 。 


代码 清单 13-23 ”第 13 章 \ 程 序 \ 程 序 13- 和 \ 物 理 平台 \kernel\fat32.c 


EO (yy) 


{ 


tmpname = name; 
while(*name && (*name != '/')) 
name++; 
tmpnamelen = name - tmpname; 
memcpy (tmpname, dentryname, tmpnamelen); 
dentryname[tmpnamelen] = '\0'， 


path = lookup (dentryname,tmpnamelen,parent, flags); 
if (path == NULL) 
{ 
Color_printk (RED,WHITE, "can not find file or dir:%Ss\n",dentryname); 
kfree(dentryname); 
kfree (parent); 
return NULL; 


} 


if(!*name) 
goto last_component; 
while(*name == '/') 
name++; 
if(!*name) 


goto last_slash; 


*parent = *path; 
kfree(path); 


} 

由 于 目录 名 和 文件 名 都 是 通过 符号 ' /加 以 分 割 的 ， 因 此 这 段 for 循 环 程序 就 通过 匹配 符号 ' /， 
从 形 参 name 中 提取 出 下 一 级 待 搜索 的 目录 名 或 文件 名 ， 并 将 提取 出 的 路 径 名 保存 在 aentryname 内 。 
然后 ， 使 用 1ookup 函 数 从 当前 目录 中 搜索 与 目标 名 相 匹 配 的 目录 项 。 如 果 匹 配 成 功 ， 那 么 lookup 函 
数 将 返回 目标 名 的 短 目录 项 ,否则 返回 NULL 以 表示 当前 目录 中 不 存在 与 目标 名 相 匹 配 的 目录 或 文件 。 

如 果 1ookup 函 数 返 回 NULL， 则 说 明 本 次 搜索 失败 ， 那么 path_walk 函 数 将 释放 局 部 变量 parent 
和 dentryname 保 存 的 临时 目录 项 和 临时 路 径 名 存储 空间 ， 并 通过 返回 NULL 来 告诉 path_walk 函 数 的 
调用 者 搜索 失败 。 如 果 lookup 函 数 搜索 成 功 ， 则 返回 目标 名 的 短 目 录 项 ， 那 么 for 循 环 体会 继续 对 形 
参 name 进 行 判 断 。 如 果 此 时 已 搜索 至 路 径 名 ( 形 参 name ) 的 结尾 处 ， 那 么 可 认为 本 次 搜索 结束 ， 处 
理 器 将 跳 转 至 标识 符 last_component 处 。 否 则 ， 继 续 过 滤 形 参 name 中 的 符号 ' /'。 假 设 过 滤 掉 符号 
'/' 后 ， 本 次 搜索 已 经 到 达 形 参 name 的 结尾 处 ， 那 么 同样 认为 本 次 搜索 结束 ， 处 理 器 将 跳 转 至 标识 符 
last_slash 处 。 如 果 过 滤 掉 符号 ' /' 后 ， 形 参 name 仍 有 剩余 字符 ， 则 1ookup 杖 数 返回 的 目录 项 将 作 
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为 父 目录 项 ， 从 此 父 目 录 中 继续 搜索 下 一 级 目标 名 ,直至 形 参 name 提 供 的 路 径 名 全 部 匹配 结束 或 搜索 


失败 。 


父 目 录 的 


函数 path_walk 的 出 口 位 于 标识 符 last_component 和 1last_slash 处 。 这 两 个 标识 符 负责 路 径 
名 搜索 的 善后 工作 ， 而 且 它 们 还 会 根据 形 参 flags 来 决定 path_walk 函 数 应 该 返回 目标 目录 项 还 是 其 


目录 项 ， 具 体 实现 过 程 请 参见 代码 清单 13-24。 


代码 清单 13-24 ”第 13 章 \ 程 序 \ 程 序 13-2\ 物 理 平台 \kernel\fat32.c 


last_slash: 
last_component: 


if(flags & 1) 

{ 
kfree(dentryname); 
kfree(path); 
return parent; 


} 


kfree(dentryname); 
kfree(parent); 
return path; 


当 形 参 flags=1 时 ，path_walk 函 数 返回 目标 父 目 录 的 目录 项 ， 和 否则 返回 目标 目录 项 。 


函数 lookup 主 要 负责 从 指定 目录 里 搜索 与 目标 名 相 匹 配 的 目录 项 ，path_walk 函 数 的 逐 级 搜索 


过 程 就 是 通过 1ookup 函 数 逐 级 目录 搜索 实现 的 。 下 面 依然 将 1ookup 函 数 拆 解 成 多 个 片段 进行 讲解 。 


函数 1ookup 首 先 会 解析 父 目 录 项 ( 由 形 参 dentry 提 供 )， 从 中 提取 出 父 目 录 项 的 起 始 徐 号， 随后 


借助 硬盘 驱动 程序 读 取 起 始 篮 中 的 数据 ， 详 细 代 码 实现 如 代码 清单 13-25。 
代码 清单 13-25 ”第 13 章 \ 程 序 \ 程 序 13-2\ 物 理 平台 \kernel\fat32.c 


struct FAT32_Directory * lookup(char * name,int namelen,struct FAT32_Directory 


{ 


*dentry,int flags) 


unsigned int cluster 0; 

unsigned long sector 0; 

unsigned char *buf =NULL; 

TG: D0 

struct FAT32_Directory *tmpdentry = NULL; 
struct FAT32_LongDirectory *tmpldentry = NULL; 
struct FAT32_Directory *p = NULL; 


buf = kmalloc(BytesPerClus,0) ， 

Cluster = (dentry->DIR_ FstClusHI << 16 | dentry->DIR_FstClusLO) & OxOfffffff; 
next_cluster: 

sector = FirstDataSector + (cluster - 2) * fat32_bootsector.BPB_ SecPerClus; 

Color_printk (BLUE,BLACK, "lookup cluster:%#010x,sector:%#0181lx\n",cluster, sector); 

if(!IDE device operation.transfer (ATA_ READ CMD, sector, fat32_bootsector. 
BPB_SecPerClus, (unsigned char *)buf)) 


color_printk (RED,BLACK, "FAT32 FS(lookup) read disk ERRORIIILIIIIILIINn" )， 
kfree (buf); 
return NULL; 
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此 处 的 代码 FirstDataSector + (cluster - 2) * fat32_bootsector.BPB_ SecperClus 
用 于 计算 簇 号 在 硬盘 中 的 LBA 记 区号。 

当 提 取出 父 目录 项 的 起 始 簇 数据 后 ，1ookup 函 数 将 进入 漫长 的 长 / 短 目 录 项 匹配 工作 。 由 于 长 目 
录 项 结构 是 基于 短 目录 项 结构 实现 的 ， 它 们 的 长 度 同 为 2B。 我 们 可 先 将 起 始 复数 据 转换 为 短 目 录 项 
数组 ， 通 过 短 目录 项 指针 变量 tmpdqentry 逐 一 检测 短 目录 项 数组 中 的 每 个 元 素 ， 直 至 发 现 有 效 短 目录 
项 为 止 ， 代 码 清单 13-26 是 具体 的 检测 过 程 。 


代码 清单 13-26 ”第 13 章 \ 程 序 \ 程 序 13- 和 \ 物 理 平台 \kernel\fat32.c 


tmpdentry = (struct FAT32_Directory *)buf; 


for(i = 0;i < BytesPerClus;i+= 32,tmpdentry++) 
{ 


if (tmpdentry->DIR_Attr == ATTR_LONG_ NAME) 
continue; 

if(tmpdentry->DIR_Name[0] == 0xe5 || tmpdentry->DIR_ Name[0] == 0x00 || tmpdentry-> 
DIR_Name[0] == 0x05) 
continue; 

tmpldentry = (struct FAT32_ LongDirectory *)tmpdentry-1; 

J 0 


这 上段 代码 主要 是 对 短 目录 项 的 文件 属性 成 员 变 量 以 及 文件 名 的 第 一 个 字 节 进行 检测 ， 检 测 过 程 会 
跳 过 长 目录 项 和 无 效 目录 项 。 

因为 长 目录 项 保存 着 完整 的 文件 名 ,而 且 长 目录 项 在 存储 空间 排列 时 会 保存 在 短 目录 项 前 面 ， 那 
么 在 发 现 有 效 短 目录 项 后 ， 我 们 应 该 优先 对 其 长 目录 项 的 文件 名 进行 匹配 。 

长 目录 项 的 匹配 过 程 会 遵照 其 结构 特点 ， 对 文件 属性 、 文 件 名 命名 规则 等 信息 进行 比 对 。 如 果 匹 
配 成 功 ， 则 返回 与 长 目录 项 对 应 的 短 目 录 项 结构 ， 和 否则 继续 对 短 目录 项 进行 匹配 ,代码 清单 13-27 是 长 
目录 项 的 完整 匹配 过 程 。 


代码 清单 13-27 第 13 章 \ 程 序 \ 程 序 13-2\ 物 理 平台 \kernel\fat32.c 


//long file/dir name compare 
while(tmpldentry->LDIR_Attr == ATTR_LONG NAME && tmpldentry->LDIR Ord != 0xe5) 
{ 


for (x=0;x<5;xX++) 


{ 


if(j>namelen && tmpldentry->LDIR_ Namel [x] == 0xffff) 
continue; 
else if(j>namelen || tmpldentry->LDIR Namel[x] != (unsigned short) (name[j++])) 


goto continue_ cmp_fail; 
} 
for (X=0;x<6;X++) 


{ 


if(j>namelen && tmpldentry->LDIR_ Name2[x] == 0xffff) 
continue; 
else if(j>namelen || tmpldentry->LDIR Name2[x] != (unsigned short) (name[j++])) 


goto continue_ cmp_fail; 
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} 
for (x=0;xX<2;xX++) 


{ 


if(j>namelen && tmpldentry->LDIR Name3[x] == 0xffff) 
continue; 
else if(j>namelen || tmpldentry->LDIR Name3[x] != (unsigned short) (name[j++])) 


goto continue_ cmp_fail; 


} 


if(j>=namelen) 


{ 


p = (struct FAT32_Directory *)kmalloc(sizeof (struct FAT32_ Directory),0); 


*p = *tmpdentry; 
kfree (buf); 
return p; 


} 


tmpldentry --; 
} 


请 读者 在 阅读 代码 清单 13-27 时 不 要 忘 了 字符 编码 转换 问题 ， 即 长 目录 项 的 文件 名 使 用 双 字 节 的 
Unicode 码 ， 而 形 参 name 传 递 的 字符 串 则 使 用 单字 节 的 ASCI 码 。 目 前 ， 本 系统 暂 不 支持 除 ASCI 码 以 


外 的 其 他 字符 编码 。 


如 果 长 目录 项 没有 匹配 成 功 ,或 者 不 存在 长 目录 项 ,那么 lookup 函 数 会 再 去 匹配 短 目录 项 ， 短 


目录 项 共 分 为 基础 名 和 扩展 名 两 个 匹配 过 程 。 代 码 清单 13-28 用 于 匹配 短 目录 项 的 基础 名 ,这 段 程序 是 
在 for 循 环 语句 的 基础 上 结合 分 支 选 择 语句 switch 实 现 的 基础 名 匹配 。 


代码 清单 13-28 ”第 13 章 \ 程 序 \ 程 序 13-2\ 物 理 平台 \kernel\fat32.c 


//short file/dir base name compare 
J = 0; 
for (x=0;x<8;x++) 
{ 
switch(tmpdentry->DIR_Name [x]) 
{ 
Case ' ': 
if(! (tmpdentry->DIR_ Attr & ATTR_DIRECTORY)) 
{ 
if (name[j]=="'.') 
continue; 


else if(tmpdentry->DIR_ Name[x] == name[j]) 


{ 
j++; 
break; 
ly 
else 
goto continue_cmp_fail; 
} 
else 
{ 
if(j < namelen && tmpdentry->DIR_ Name[x] 
{ 


j++; 


== name[j]) 
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break; 
} 
else if(j == namelen) 
continue; 
else 
goto continue_ cmp_fail; 
} 
Case 'A' ... 'Z': 
CSE. Va ey 
if(tmpdentry->DIR_NTRes & LOWERCASE_ BASE) 
if(j < namelen && tmpdentry->DIR_ Name[x] + 32 == name[j]) 
€ 
j++; 
break; 
} 
else 
goto continue_ cmp_fail; 
else 
{ 
if(j < namelen && tmpdentry->DIR_ Name[x] == name{[j]) 
ft 
j++; 
break; 
else 
goto continue_ cmp_fail; 
} 
CASE "QO sss 0 
if(j < namelen && tmpdentry->DIR Name[x] == name{[j]) 
{ 
汗 生 学 
break; 
} 
else 
goto continue_cmp_fail; 
default 
j++ 
break; 


} 
此 段 代 码 可 对 空格 、 字母 和 数字 进行 匹配 , 为 了 兼容 Windows 操 作 系统 , 这 里 还 会 检测 DIR_NTRes 
时 


知识 点 补充 
> 在 标准 C 语 言 中 ，switch 语 句 中 的 关键 字 case 只 能 关联 一 个 数值 ,而 GNU C 语 言 在 此 基础 上 进行 
了 功能 扩展 ， 使 得 关键 字 case 可 关联 一 个 数值 范围 ， 语 法 格式 如 下 : 
case 数值 + 空格 +… 二 空格 + 数值 : 


550 第 13 章 文件 系统 


这 种 功能 扩展 给 我 们 的 编程 带 来 诸多 便利 ， 它 已 应 用 到 短 目录 项 的 文件 名 匹配 程序 中 
单 13-29 是 短 目 录 项 扩展 名 的 匹配 过 程 ， 其 与 基础 名 的 匹配 过 程 极为 相似 。 


代码 清单 13-29 ”第 13 章 \ 程 序 \ 程 序 13-2\ 物 理 平台 \kernel\fat32.c 


//short file ext name compare 
if(! (tmpdentry->DIR_ Attr & ATTR_DIRECTORY)) 


{ 

Db 

for (x=8;x<11;x++) 

人 
switch(tmpdentry->DIR_Name [x]) 
{ 

OBE AY si 

CASE "HY ssi Zi 

if (tmpdentry->DIR_NTRes & LOWERCASE_ EXT) 
if(tmpdentry->DIR_ Name[x] + 32 == name[j]) 


j++; 
break; 
} 
else 
goto continue_ cmp_fail; 
else 
{ 
} 
case '0 9 
case 


if(tmpdentry->DIR_ Name[x] == name[j]) 


t 
j++; 
break; 
} 


else 
goto continue_ cmp_fail; 


default : 
goto continue_ cmp_fail; 


} 
} 
p = (struct FAT32_Directory *)kmalloc(sizeof (struct FAT32_ Directory),0) 
wD modentryy 
kfree (buf); 
return p; 


continue_cmp_fail:; 


如 果 短 目录 项 的 文件 名 匹配 成 功 ， 则 lookup 函 数 将 释放 临时 复数 据 空间 并 返回 短 


。 代 码 清 


’ 


目录 项 结构 ， 


目录 项 。 如 果 搜 索 完 本 艇 后 仍 未 发 现 目 标 文件 名 ,那么 


就 调用 函数 


否则 继续 搜索 下 一 个 有 效 短 
DISK1_FAT32_reagd_FAT_Entry 有 取得 父 日 录 的 下 一 个 艇 号 ， 并 继续 在 下 一 个 艇 中 搜索 


如 此 往复 ， 直 至 搜索 到 父 目录 的 最 后 一 个 簇 为 止 ， 代 码 清 单 13-30 是 这 部 分 的 功能 实现 。 


目标 文件 名 。 


13.2 ”解析 FAT32 文件 系统 551 


代码 清单 13-30 ”第 13 章 \ 程 序 \ 程 序 13- 入 物理 平台 \kernel\fat32.c 


Cluster = DISK1_FAT32_read_FAT_ Entry (cluster); 
if(cluster < Ox0ffffff7) 
goto next_cluster; 


kfree (buf); 
return NULL; 


如 果 1ookup 沁 数 搜索 完 父 目录 的 全 部 艇 后 ,依然 没有 发 现 目标 文件 名 ， 那 么 宣告 搜索 失败 ， 
lookup 函 数 会 释放 临时 簇 数据 空间 并 返回 NULL。 
代码 清单 13-31 是 FAT 表 项 的 读 写 操作 函数 ， 这 两 个 函数 借助 FAT 表 项 和 硬盘 驱动 程序 来 读 写 FAT 


代码 清单 13-31 第 13 章 \ 程 序 \ 程 序 13-2\ 物 理 平台 \kernel\fat32.c 


unsigned int DISK1_FAT32_read_FAT_ Entry (unsigned int fat_entry) 
{ 


unsigned int buf[128]; 

memset (buf,0,512); 

IDE_device operation.transfer (ATA_READ CMD,FirstFAT1lSector + (fat_entry >> 
7),1, (unsigned char *)buf); 

Color_printk (BLUE,BLACK, "DISK1_FAT32_read_ FAT Entry fat_entry:%#0181x, 
S$#010x\n",fat_entry,bufl[lfat_entry & Ox7f]); 

return bufl[lfat_entry & Ox7f] & OxOfffffff; 


} 


unsigned long DISK1_FAT32_ write_FAT_ Entry (unsigned int fat_entry,unsigned int value) 


unsigned int buf[128]; 

memset (buf,0,512); 

IDE_device_ operation.transfer (ATA_READ CMD,FirstFAT1lSector + (fat_entry >> 
7),1, (unsigned char *)buf); 

buf[fat_entry & 0x7f] = (buf [fat_entry & 0x7f] & Oxf0000000) | (value & Ox0Offfffff); 

IDE_device_ operation.transfer (ATA WRITE_ CMD,FirstFAT1lSector + (fat_entry >> 
7),1, (unsigned char *)buf); 

IDE_device_ operation.transfer (ATA_ WRITE_CMD,FirstFAT2Sector + (fat_entry >> 
7),1, (unsigned char *)buf); 

return 1; 


因为 FAT32 文 件 系统 的 每 个 FAT 表 项 占用 4 B， 所 以 这 两 个 函数 特意 将 buf 缓 冲 区 定义 成 一 个 拥有 
128 个 元 素 的 无 符号 整 型 数组 ， 我 们 通过 数组 下 标 即 可 索引 到 目标 FAT 表 项 (数组 的 元 素 )。 为 了 保证 
FAT 表 数据 的 一 致 性 ，FAT 表 项 的 写 操作 函数 DISK1_FaAT32_write_FAT_Entrv 会 同时 更 新 表 FAT1 和 
FAT2。 

至 此 , 基于 路 径 名 的 文件 搜索 程序 已 经 实现 , 图 13-17 是 它 的 运行 效果 , 根据 此 图 打印 的 信息 可 
文件 89AIOlejk.TXT 的 长 度 为 1160 (0x488 ) 个 字 节 ( 约 1.13 KB )。 
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disk_handler! 
disk_handle! 


qiskchangler 
disk_handler| 
disk_handler 


图 13-17 基于 路 径 名 的 文件 搜索 效果 图 


经 过 对 FAT32 文 件 系统 的 学 习 和 编程 实践 ,， 有 能 力 的 读者 可 将 本 系统 的 引导 U 盘 升级 为 FAT32 文 件 


系统 


13. 


尽管 每 种 文件 系统 都 有 独特 的 组 织 结构 ， 但 它们 对 于 应 用 程序 而 言 却 是 透明 的 ， 也 就 是 说 在 应 用 


o 


3 虚拟 文件 系统 


程序 通过 系统 调用 API 访 问 文件 期 间 ， 应 用 程序 并 不 知晓 文件 所 在 的 文件 系统 。 
操作 系统 为 了 确保 应 用 程序 能 够 在 不 同 种 文件 系统 间 平 滑 访 问 , 特 引 入 虚拟 文件 系统 ( Virtual File 
System，VFS ) 这 个 概念 。VFS 是 对 所 有 文件 系统 的 高 度 抽 象 和 概括 ， 操 作 系 统 将 所 有 支持 的 文件 系 


统 都 


藏匿 于 VFS 中 ，VFS 会 提供 统一 的 抽象 函数 接口 供应 用 程序 访问 。 


相信 经 过 对 FAT32 文 件 系统 的 认 知 和 学 习 后 ， 读 者 可 以 快速 理解 VFS 框 架 。 


13.3.1 Linux VFS 简介 
为 了 使 应 用 程序 游 丸 有 余地 在 各 文件 系统 间 访 问 ，Linux 内 核 在 文件 系统 之 上 为 它们 抽象 出 了 虚 


拟 文 


会 根 
统 调 
结 出 


件 系统 层 。 


VFS 总 结 归 纳 出 访问 文件 系统 的 操作 方法 ， 每 种 文件 系统 都 拥有 一 份 操作 方法 的 执行 副本 ， 它 们 


据 自身 情况 和 特点 对 这 些 操作 方法 予以 实现 。 当 应 用 程序 通过 系统 调 上 


的 VFS 结 构 示意 图 。 


jAPI 访 问 文件 系统 时 ， 系 
jAPI 会 穿 过 VFS 调 用 文件 系统 的 具体 操作 方法 实现 。 图 13-18 是 在 参考 多 个 Linux 内 核 版 本 后 ， 总 
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应 用 程序 
应 用 忆 
内 核 导 
系统 调用 API 
二 
struct task_struct d compare struct minix inode info S_root 
dG d delete j private |struct csl2 inode in 
d_revalidate struct msdos_inode_info struct minix_sb_into 
d hash struct ntfs inode info ,fs infa | et ext2 sb into 
dentry > supcrblock SM | sbuct msdos sb info 
struct ntts_sb_into 
openTelease'Tead writerllseek 这 严 
d_name ; ioctl pollimmap’flush write_inode 
2 1 fops9 训 1 fops | ooktsynoitasy (inode’delele inod 
fi f ops 是 i fops 的 副本 ockiIsvnc tasyne s_ops | Pul inode'delele inode 
readviwritev pur_superiwrite_super 
privale_dala 
create:rename 
linkiunlink:symlink 
i ops | mkdirrmdir 
setattrigetattr 
lookup’mknodipermission 
readpage 
writepage 
struct address_space ->a_ops { SYIC Page 
prepare_write 
commit_write 
TA A te a oe 
文件 数据 目录 项 (长 : 短 ) 超级 块 
Ee -= | 和 
同 区 操作 
块 设备 驱动 
硬盘 
; ee 
图 13-18 ”Linux VFS 结 构 示 意图 
、 > te y 证 > FE 旦 要 mz 
到 13-18 以 FAT32 文 件 系统 为 例 ， 展 示 了 虚拟 文件 系统 层 在 内 核 中 的 位 置 ， 它 位 于 FAT32 文 件 系统 


和 系统 调用 API 层 之 间 。Linux 内 核 遵 照 图 13-1 展 示 的 文件 系统 整体 结构 , 在 VFS 中 抽象 出 superblock 
( 超级 块 ) 结 构 、inoge( 索引 节点 ) 结 构 、qdentry( 目录 项 ) 结 构 、file( 文件 ) 结 构 以 及 address_space 


( 地 址 空间 ) 结构 等 主要 结构 来 抽象 描述 一 个 文件 系统 ， 并 分 别 为 它们 定义 操作 方法 ， 表 13-13 是 这 些 
结构 和 操作 方法 的 介绍 。 


表 13-13 ”VFS 相关 结构 说 明 表 


结 构 名 功能 描述 操作 方法 功能 

SuPerhloek superblock 结 构 记 录 着 目标 文件 系统 的 引导 肩 ” superblock 结 构 的 读 写 、inode 结 构 的 写 出 、 
区 信息 和 操作 系统 为 文件 系统 分 配 的 资源 信息 。 ”文件 系统 的 基础 操作 与 设置 接 

inode inoae 结 构 记录 着 文件 在 文件 系统 中 的 物理 信息 ”文件 /目录 的 创建 和 删除 、 权 限 和 属性 的 设置 、 
和 文件 在 操作 系统 中 的 抽象 信息 特殊 文件 的 处 理 等 甚 多 方法 

dentry dentry 结 构 用 于 描述 文件 /目录 在 文件 系统 中 的 ”目录 项 名 的 比较 、 目 录 项 缓存 管理 、 目 录 项 的 
层级 关系 释放 和 删除 等 基础 操作 方法 

file file 结 构 是 进程 连接 VFS 的 纽带 , 它 是 抽象 出 来 ”文件 的 读 写 访问 ( 同步/ 异步) 、IO 控 制 以 及 其 
的 ， 并 不 存在 于 物理 介质 中 他 操作 方法 


address_space 班 


addaress_space 结 构 保 存 着 文件 数据 在 操作 系 
统 中 的 缓存 信息 〈 以 物理 页 为 单位 ) 


物 


页 读 写 以 及 其 他 关于 物理 页 的 操作 方法 


[Sy 
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对 于 表 13-13 这 里 再 


补充 说 明 一 下 ，inode 结 构 的 读 和 操作 并 不 存在 于 超级 块 的 操作 方法 中 ， 而 是 


通过 inoqe 节 点 的 1oo 


kup 操 作 方 法 在 搜索 过 程 中 创建 出 来 的 ; aentry 结 构 的 创建 工作 亦 是 通过 


inode 节 点 的 create、 mknod、 mkdir 等 操作 方法 实现 的 ; 对 于 文件 的 读 写 操作 而 言 , 其 虽 起 始 于 file 


结构 的 read、write 等 


操作 方法 ,但 几经 周折 后 会 调用 adqdqress_space 结 构 的 物理 页 读 写 操作 方法 ， 


而 字符 设备 的 读 写 操作 却 往往 是 由 file 结 构 的 read、write 操 作 方 法 来 实现 。file 结 构 的 private_ 


gata 成 员 变 量 经 常用 于 保存 驱动 程序 的 独 有 数据 信息 。 


13.3.2 ”实现 VFS 


本 节 将 根据 图 13-18 描 述 的 VFS 结 构 来 构建 程序 ， 然 后 在 VFS 架 构 下 实现 FAT32 文 件 系统 。 此 VFS 
同样 参考 Linux 内核 多 个 版 本 的 结构 设计 ， 同 时 ， 为 了 让 代码 便于 理解 和 实现 ， 这 里 暂 不 引入 


address_spac e 结 构 。 


首先 ， 遵 照 图 13- 


18 绘 制 的 VFS 结 构 ， 我 们 需要 为 VFS 设 计 一 系列 结构 和 操作 方法 。 代 码 清 


单 13-32 是 superblock、inode、dentry 和 file 的 结构 体 定义 ,其 superblock 结 构 的 root 
成 员 变 量 比 较 特 殊 ， 它 记录 着 根 日 录 的 日 录 项 ， 此 日 录 项 在 文件 系统 中 并 不 存在 实体 结构 ， 而 
是 为 了 便于 搜索 特意 抽象 出 来 的 ; ijnode 结 构 的 attripbute 成 员 变 量 用 于 保存 目录 项 的 属性 ( 文 


件 或 目录 等 )， 这 个 变量 是 对 目录 项 的 高 度 概括 和 抽象 ， 与 具体 文件 系统 目录 项 属性 不 同 的 是 ， 
该 变量 可 为 虚拟 文件 系统 带 来 更 高 的 通用 性 和 移植 性 ， 此 处 还 特意 为 它 定义 了 两 个 宏 常量 
FS_ATTR_FILE 和 FS_ATTR_DIR 来 表示 文件 或 目录 ; dentry 结 构 的 chilg_node 和 subdirs_list 
成 员 变 量 负责 描述 日 录 项 之 间 的 层级 关系 ; file 结 构 的 position 成 员 变 量 记 录 着 文件 的 当前 
访问 位 置 ， 而 mode 成 员 变 量 则 保存 着 文件 的 访问 模式 和 操作 模式 。 


代码 清单 13-32 第 13 章 \ 程 序 \ 程 序 13-3\ 物 理 平台 \kernel\VFS.h 


struct super_block 


{ 


struct dir entry * root; 
struct super_block_ operations * sb_ops; 
void * private_ sb_info; 


} . 


{ 


> 
struct index_node 


unsigned long file size; 
unsigned long blocks; 
unsigned long attribute; 


< mo m m 


3 


truct super_block * sb; 

truct file operations * f_ops; 

truct index node operations * inode_ops; 
oid * private_ index_info; 


struct dir_entry 


{ 


char * name 


struct List 


大 


int name_length; 


chilqd_node; 
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}; 


struct List ubdirs list} 


struct index_ node * dir_inode; 
struct dir _ entry * parent; 
struct dir_ entry_operations * dir_ops; 


struct file 


{ 


ee 


在 上 述 结构 体 定义 
保存 各 类 文件 系统 的 特有 数据 信息 ， 其 他 成 员 变 量 则 用 于 描述 文件 系统 的 通 月 
FAT32 文 件 系 统 为 例 ，VFS 必 须 


long position; 
unsigned long mode; 


struct dir _ entry * dentry; 
struct file operations * f_ops; 
void * private_ data; 


1， 成 员 变 量 private_sb_info、 private_index_info、privat 


_data 


用 于 


信息 和 操作 方法 。 这 昌 


才能 完整 地 抽象 出 一 个 FAT32 文 件 系统 ， 代 码 清单 13-33 是 FAT32 文 件 系统 的 特有 数据 结构 定义 。 


代码 清单 13-33 ”第 13 章 \ 程 序 \ 程 序 13-3\ 物 理 平台 \kernel\fat32.h 


struct FAT32_sb_info 


{ 


}; 


unsigned long start_sector; 
unsigned long sector_count; 


long sector_per_cluster; 
long bytes_per_cluster; 
long bytes_per_sector; 


unsigned long Data firstsector; 
unsigned long FAT1 firstsector; 
unsigned long sector_ per_FAT; 
unsigned long NumFATs; 


unsigned long fsinfo_ sector_infat; 
unsigned long bootsector bk_ infat; 


struct FAT32_FSInfo * fat_fsinfo; 


struct FAT32_inode_info 


{ 


unsigned long first_cluster; 
unsigned long dentry_location; 


unsigned long dentry_position; 


unsigned short create_date; 
unsigned short create time; 
unsigned short write_ date; 
unsigned short write time; 


////dentry struct 
////invalid) 
////dentry struct 


offset in cluster 


文 里 以 


向 superblock 结 构 和 inogde 结 构 附 加 FAT32 文 件 系 统 的 特有 数据 信息 ， 


in cluster(0 is root,l1 is 
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请 读者 一 定 要 区 分 此 处 定义 的 文件 系统 特有 结构 和 文件 系统 的 物理 数据 结构 。 文 件 系 统 特有 结 
构 虽 然 与 物理 数据 结构 极其 相似 ， 但 特有 结构 会 参与 文件 系统 的 所 有 操作 过 程 ， 它 记录 的 信息 更 丰 
富 、 更 实用 ， 而 物理 数据 结构 仅 用 于 存储 介质 访问 。 例 如 此 前 定义 的 FirstDataSector、Bytes 
PerClus、fat32_fsinfo 等 全 局 变量 均 可 移 人 到 struct FAT32_sb_info 结 构 体 内 。 

可 以 说 struct FAT32_sb_info 和 struct FAT32_inode_info 结 构 完全 是 为 了 方便 VFS 操 作 
FAT32 文 件 系统 而 定义 的 。 比 如 ，struct FAT32_inode_info 结 构 中 的 dentry_location 和 
dentry_position 成 员 变 量 ， 它 们 是 为 了 便于 锁定 目录 项 在 复 中 的 位 置 而 定义 的 。 这 两 个 结构 中 的 
内 容 并 不 固定 ， 读 者 可 根据 个 人 需要 自行 调整 。 

至 此 ，VFS 的 相关 结构 已 初步 定义 完成 ， 接 下 来 将 为 这 些 结构 设计 操作 方法 。 代 码 清 单 13-34 是 操 
作 方 法 的 结构 定义 ， 这 些 操作 方法 是 从 Linux VFS 中 借鉴 过 来 的 ， 它 们 仅仅 是 众多 操作 方法 中 的 一 小 
部 分 ， 也 是 目前 可 以 在 FAT32 文 件 系统 上 实现 的 操作 方法 。 


代码 清单 13-34 ”第 13 章 \ 程 序 \ 程 序 13-3\ 物 理 平台 \kernel\VFS.h 


struct super_block_operations 


{ 


void(*write_superblock) (struct super_block * sb); 
void(*put_superblock) (struct super_ block * sb); 
void(*write_ inode) (struct index node * inode); 
> 
struct index_ node operations 
{ 
long (*create) (struct index node * inode,struct dir entry * dentry,int mode); 
struct dir_ entry* (*lookup) (struct index node * parent_inode,struct dir _ entry * 
dest_dentry); 
long (*mkdir) (struct index node * inode,struct dir entry * dentry,int mode); 
Jong (*rmdir) (struct index node * inode,struct dir _ entry * dentry); 
long (*rename) (struct index node * old_inode,struct dir_entry * old_ dentry,struct 
index_node * new_ inode,struct dir entry * new_ dentry); 
long (*getattr) (struct dir entry * dentry,unsigned long * attr); 
long (*setattr) (struct dir entry * dentry,unsigned long * attr); 
ys 
struct dir_ entry_operations 
{ 
long (*compare) (struct dir _ entry * parent_ dentry,char * source_ filename,char * 
destination filename); 
long (*hash) (struct dir entry * dentry,char * filename); 
long (*release) (struct dir entry * dentry); 
long (*iput) (struct dir_entry * dentry,struct index_ node * inode); 
站 
struct file_operations 
{ 
long (*open) (struct index node * inode,struct file * filp); 
long (*close) (struct index node * inode,struct file * filp); 
long (*read) (struct file * filp,char * buf,unsigned long count,long * position); 
long (*write) (struct file * filp,char * buf,unsigned long count,1long * position); 
Jong (xl1seek) (struct file * filp,long offset,1ong origin); 
long (*ioctl1) (struct index node * inode,struct file * filp,unsigned long 
cmd,unsigned long arg); 
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为 了 让 FAT32 文 件 系统 与 VFS 层 衔接 得 更 加 自然 ， 我 们 再 创建 一 个 名 为 file_system_type 的 结构 
体 来 记录 VFS 支 持 的 文件 系统 类 型 ， 并 使 用 单 向 链表 结构 将 支持 的 文件 系统 串联 起 来 ， 代 码 清单 13-35 
是 这 个 结构 体 的 定义 。 


代码 清单 13-35 ”第 13 章 \ 程 序 \ 程 序 13-3\ 物 理 平台 \kernel\VFS.h 


struct file_system type 
{ 


char * name; 

int fs flags; 

struct super_block * (*read_ superblock) (struct Disk_ Partition Table Entry *| 
DPTE,void * puf); 

struct file_system type * next; 


二 

结构 体 中 的 zeadq_superblock 成 员 变 量 存 有 解析 文件 系统 引导 证 区 的 方法 。 当 挂 载 文件 系统 
时 ， 操 作 系统 只 需 沿 着 文件 系统 链表 搜索 文件 系统 名 ， 一 且 匹 配 成 功 就 调用 read_superblock 方 法 
为 文件 系统 创建 超级 块 结 构 。 代 码 清单 13-36 是 文件 系统 的 注册 、 注 销 以 及 挂 载 函 数 的 程序 实现 。 


代码 清单 13-36 ”第 13 章 \ 程 序 \ 程 序 13-3\ 物 理 平 台 \kernel\VFS.c 


struct file_ system type filesystem = {"filesystem",0}; 

//function mount_root 

struct super_block* mount_fs(char * name,struct Disk_ Partition Table Entry * 
DPTE, void * puf) 


t 
struct file_ system type * p = NULL; 
for(p = &filesystem;p;p = p->next) 
if(!strcmp (p->name,name)) 
{ 
return p->read_ superblock (DPTE, buf); 
} 
return 0; 
} 
unsigned long register_ filesystem(struct file system type * fs) 
t 
struct file_system type * p = NULL; 
for(p = &filesystem;p;p = p->next) 
if(!strcmp (fs->name,p->name)) 
return 0; 
fs->next = filesystem.next; 
filesystem.next = fs; 
return 1; 


} 
这 段 代码 为 file_system_type 结 构 体 实例 化 一 个 全 局 变量 filesystem， 它 是 链表 的 表 头 ， 所 
有 注册 到 VFS 中 的 文件 系统 均 链 接 在 其 中 。 
挂 载 函 数 mount_fs 从 链表 头 filesystem 开 始 搜索 目标 文件 系统 名 ， 如 果 匹 配 成 功 ， 则 将 硬盘 分 
区 表 项 和 引导 扇 区 数据 作为 参数 传递 给 read_superblock 方 法 来 解析 引导 扇 区 。 文 件 系统 注册 函数 
register_filesystem 负 责 将 文件 系统 挂 载 到 filesystem 链 表 上 。 
代码 清单 13-37 中 的 fat32_readq_superblock 困 数 是 为 FAT32 文 件 系统 编写 的 引导 扇 区 解析 方 
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法 ， 它 从 函数 DISK1_FAT32_FS_init 中 摘 取 出 引导 扇 区 解析 代码 ， 并 在 VFS 层 框架 的 基础 上 对 原 有 
程序 进行 封装 。 


代码 清单 13-37 第 13 章 \ 程 序 \ 程 序 13-3\ 物 理 平台 \kernel\fat32.c 


struct super_block * fat32_read superblock(struct Disk_Partition Table Entry * 
PTE, void * puf) 


口 


truct super_block * sbp = NULL; 

truct FAT32_inode_info * finode = NULL; 
truct FAT32_BootSector * fbs = NULL; 
truct FAT32_sb. info * fsbi = NULL:; 


As 


///super block 
sbp = (struct super_ block *)kmalloc(sizeof (struct super_block),0); 
memset (sbp,0,sizeof (struct super_block)); 


bp->sb_ops = &FAT32_sb_ops; 

bp->private_sb_info = (struct FAT32_sb_info *)kmalloc(sizeof (struct 
FAT32_sb_info),0); 

memset (sbp->private_sb_info,0,sizeof (struct FAT32_sb_info)); 


Im 


////fat32 boot sector 

fbs = (struct FAT32_BootSector *)buf; 

fsbi = sbp->private_sb_info; 

fsbi->start_sector = DPTE->start_LBA; 

fsbi->sector_count = DPTE->sectors_limit; 

fsbi->sector_per_cluster = fbs->BPB_SecPerClus; 
fsbi->bytes_per_cluster = fbs->BPB_SecPerClus * fbs->BPB_ BytesPerSec; 
fsbi->bytes_per_sector = fbs->BPB_BytesPerSec; 

fsbi->Data_ firstsector = DPTE->start_LBA + fbs->BPB_RsvdSecCnt + fbs->BPB_FATSz32 
* fbs->BPB_NumFATs; 

fsbi->FAT1_ firstsector = DPTE->start_LBA + fbs->BPB_RsvdSecCnt; 
fsbi->sector_per_FAT = fbs->BPB_FATSz32; 

fsbi->NumFATs = fbs->BPB_NumFATs; 

fsbi->fsinfo_sector_infat = fbs->BPB_FSInfo; 
fsbi->bootsector_bk_infat = fbs->BPB_BkBootSec; 


color_printk (BLUE, BLACK, "FAT32 Boot Sector\n\tBPB_FSInfo:%#018]x\n\tBPB_ BkBootSec: 
S$#0181x\n\tBPB_TotSec32:%#018]lx\n",fbs->BPB_FSInfo, fbs->BPB_BkBootSec, fbs-> 
BPB_TotSec32); 


////fat32 fsinfo sector 

fsbi->fat_fsinfo = (struct FAT32_FSInfo *)kmalloc(sizeof (struct FAT32_FSInfo),0); 

memset (fsbi->fat_fsinfo,0,512); 

IDE_device operation.transfer (ATA_READ CMD,DPTE->start_LBA + fbs->BPB_FSInfo,1, 
(unsigned char *)fsbi->fat_ fsinfo); 


Color_printk (BLUE,BLACK, "FAT32 FSINnfo\n\tFSI_LeadSig:%#0181lx\n\tFSI_StrucSig: 
%S#0181x\n\tFSI_Free Count:%#0181lx\n",fsbi->fat_fsinfo->FSI_LeadSig,fsbi-> 
fat_fsinfo->FSI_StrucSig,fsbi->fat_fsinfo->FSI_Free_ Count);} 


////directory entry 
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sbp->root = (struct dir_ entry *)kmalloc(sizeof (struct dir_ entry),0); 
memset (sbp->root,0,sizeof (struct dir_ entry)); 


list_init(&sbp->root->child node); 
list_init(&sbp->root->subdirs_list); 
sbp->root->parent = sbp->root; 
sbp->root->dir_ops = &FAT32_dentry_ops; 
sbp->root->name = (char *)kmalloc(2,0); 
sbp->root->name[0] = '/'; 
sbp->root->name_length = 1; 


////index node 

sbp->root->dir_inode = (struct index node *)kmalloc(sizeof(struct index node),0); 

memset (sbp->root->dir_inode,0,sizeof(struct index_ node)); 

sbp->root->dir_inode->inode ops = &FAT32_inode_ops; 

sbp->root->dir_inode->f_ops = &FAT32_file ops; 

sbp->root->dir_inode->file size = 0; 

sbp->root->dir_inode->blocks = (sbp->root->dir_inode->file_ size + fsbi->bytes_ 
per_cluster - 1)/fsbi->bytes_per_sector; 

sbp->root->dir_inode->attribute = FS_ATTR_DIR; 

sbp->root->dir_inode->sb = sbp; 


////fat32 root inode 
sbp->root->dir_inode->private_ index_info = (struct FAT32_inode_ info *)kmalloc 
(sizeof (struct FAT32_inode_info),0); 

memset (sbp->root->dir_inode->private_index_info,0,sizeof(struct FAT32_inode_ 
info)); 

finode = (struct FAT32_inode_info *)sbp->root->dir_inode->private_index_info; 

finode->first_cluster = fbs->BPB_RootClus; 

finode->dentry_location = 0; 

finode->dentry_position = 0; 

finode->create_date = 

finode->create _ time = 

finode->write_ date = 

finode->write time = 

return sbp; 


0; 
0; 


WU 
0; 


} 
struct file_ system type FAT32_fs_type= 
t 


.name = "FAT32", 
Tavs Sy 
.read_superblock = fat32_read_superblock, 
.next = NULDL, 
这 


全 局 变量 FPAT32_fs_type 是 为 FAT32 文 件 系 统 创建 的 文件 系统 类 型 结构 ， 其 中 的 操作 方法 函数 指 
针 read_superblock 人 负责 解析 引导 扇 区 数据 ， 对 FAT32 文 件 系统 而 言 ， 引 导 扇 区 解析 工作 将 由 函数 
fat32_read_superblock 完 成 。 

函数 fat32_reaq_superblock 会 解析 引导 扇 区 数据 ， 从 中 提取 出 相关 数据 ， 并 将 这 些 数据 保存 
在 superblock 结 构 ( struct super_block ) 和 文件 系统 特有 结构 ( 此 处 为 struct FAT32_sb_info 
和 struct FAT32_inode_info ) 内 。 整 个 保存 过 程 将 会 涉及 FSsInfo 扇 区 的 解析 、 相 关 数 据 的 计算 
和 统计 、 根 目录 项 和 根 目录 索引 节点 等 结构 的 创建 与 初始 化 赋值 。 在 根 目 录 项 和 根 目 录 索 引 节 点 的 初 
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始 化 赋值 过 程 中 ， 程 序 会 为 这 两 个 结构 配置 FAT32 文 件 系 统 的 操作 方法 ， 即 FAT32_dentry_ops、 
FAT32_inode_ops 和 FAT32_file_ops。 

因此 ， 只 要 FAT32 文 件 系统 挂 载 成 功 ， 操 作 系 统 就 会 自动 为 它 创 建 根 目 录 。 代 码 清 单 13-38 是 经 过 
调整 后 的 FAT32 文 件 系 统 初始 化 函数 ， 这 个 函数 现 已 加 入 文件 系统 的 注册 功能 和 挂 载 功能 。 
代码 清单 13-38 ”第 13 章 \ 程 序 \ 程 序 13-3\ 物 理 平台 \kernel\fat32.c 


voiqd DISK1_FAT32_FS_init() 


{ 


工 这 让 二 江宁 
unsigned char buf[512]; 

struct dir_ entry * dentry = NULL; 
struct Disk_ Partition Table DPT = {0}; 


register_ filesystem(&FAT32_fs_type); 

memset (buf,0,512); 

IDE_device operation.transfer (ATA_READ_ CMD, 0x0,1, (unsigned char *)buf); 

DPT = *(struct Disk_Partition Table *)buf; 

IDE_device operation.transfer (ATA_READ CMD,DPT.DPTE[0] .start_LBA,1, (unsigned 
ehar .buf).> 

root_sb = mount_fs ("FAT32",&DPT.DPTE[O0],buf); //not dev node 

dentry = path walk("/JIOL123L1]liwos/89AIOlejk.TXT",0); 


函数 中 的 root_sb 是 一 个 struct super_block 类 型 的 全 局 指针 变量 ， 它 保存 着 操作 系统 的 根 文 
件 系统 信息 。 

虽然 DISK1_FAT32_FS_init 困 数 的 功能 尚未 改变 , 但 经 过 VFS 结 构 的 封装 , 使 得 FAIT32 文 件 系统 
的 解析 代码 变 得 更 加 结构 化 ， 每 个 结构 的 功能 清晰 明确 ， 同 时 程序 的 易 读 性 还 增强 了 。 


下 鸡 


i 将 在 VFS 的 基础 上 对 path_walk 函 数 进 行 重 构 ， 重 构 的 重点 是 对 VFS 结 构 的 创建 和 使 用 ， 程 


序 实现 如 代码 清单 13-39。 


代码 清单 13-39 ”第 13 章 \ 程 序 \ 程 序 13-3\ 物 理 平台 \kernel\fat32.c 


struct dir_ entry * path walk(char * name,unsigned long flags) 


{ 


char * tmpname NULL; 

int tmpnamelen 0 

struct dir_ entry * parent = root_sb->root; 
struct dir_ entry * path = NULL; 


path = (struct dir_entry *)kmalloc(sizeof (struct dir entry),0); 
memset (path,0,sizeof (struct dir entry)); 
path->name = kmalloc (tmpnamelen+1,0); 
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} 


这 上段 程序 


} 


memset (path->name,d0,tmpnamelen+1); 
memcpy (tmpname,path->name, tmpnamelen); 
path->name_length = tmpnamelen; 
if (parent->dir_inode->inode_ops->lookup (parent->dir_inode,path) == NULL) 
人 
Color_printk (RED,WHITE, "can not find file or dir:%s\n",path->name); 
kfree(path->name); 
kfree(path); 
return NULL; 
} 
list_init(&path->child_ node); 
list_init(&path->subdirs_list); 
path->parent = parent; 
list_adqd to behind(&parent->subdirs_list,é&path->child node); 


parent = path; 


last_slash: 
last_component: 


if(flags & 1) 
{ 


return parent; 


} 


return path; 


字 依 然 负 责 逐 层 搜 索 形 参 name 传 递 来 的 文件 路 径 名 , 只 不 过 此 次 采用 更 加 结构 化 的 搜索 方 


法 ， 即 借助 inoqe 结 构 的 1ookup 操 作 方 法 在 父 目 录 中 搜索 目标 文件 名 。 在 调用 搜索 方法 前 ，path_ 
walk 函 数 会 创建 aentry 结 构 path,， 并 将 待 搜索 的 路 径 名 和 名 字 长 度 保存 在 其 中 。 再 将 path 作 为 参数 
全 lookup 操 作 方 法 进行 搜索 。 如 果 搜 索 到 目标 路 径 名 ,那么 lookup 操 作 方法 会 对 path 进 行 初始 
path_walk 了 消 数 会 在 lookup 方 法 返回 后 ， 立 即将 path 加 入 到 目录 项 的 层级 关系 中 。 如 此 往 

， 直 至 搜索 结束 ， 最 后 根据 参数 flags 来 决定 应 该 返回 父 目 录 项 还 是 子 目录 项 。 

函数 path_walk 的 主要 作用 是 调用 1ookup 操 作 方 法 搜索 路 径 名 。 对 FAT32 文 件 系统 而 言 ，1ookup 
操作 方法 的 处 理 函 数 是 Far32_1ookup, 此 函数 是 从 原 lookup 函 数 的 基础 上 修改 而 来 的 , 代码 清单 13-40 
是 FAT32_1lookup 函 数 的 部 分 程序 实现 。 


代码 清单 13-40 ”第 13 章 \ 程 序 \ 程 序 13-3\ 物 理 平台 \kernel\fat32.c 


long FAT32_create(struct index node * inode,struct dir _ entry * dentry,int mode){} 


传递 给 


{ 


struct dir_ entry * FAT32_lookup(struct index_ node * parent_inode,struct dir_ entry * 
ee 3 
struct FAT32_inode_info * finode = parent_ inode->private index_info; 
struct FAT32_sb_info * fsbi = parent_ inode->sb->private_sb_info; 
struct FAT32_Directory * tmpdentry = NULL; 
struct FAT32_LongDirectory * tmpldentry = NULL; 
struct index node * p = NULL; 
buf = kmalloc (fsbi->bytes_per_cluster,0); 
cluster = finode->first_cluster; 
next_cluster: 


sector = fsbi->Data_ firstsector + (cluster - 2) * fsbi->sector_ per_cluster; 
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color_ printk (BLUE,BLACK, "lookup cluster:%®#010x,sector:%#0181x\n",cluster, sector); 

if(!IDE device operation.transfer (ATA_ READ_ CMD, sector,fsbi->sector_ per_cluster, 
(unsigned char *)buf)) 

tmpdentry = (struct FAT32_Directory *)buf; 

for(i = 0;i < fsbi->bytes_per_cluster;i+= 32,tmpdentry++) 


//long file/dir name compare 
while(((struct FAT32_Directory *)tmpldentry)->DIR_ Attr == ATTR_LONG NAME && 
tmpldentry->LDIR_Ord != 0xe5) 


for (x=0;x<5;xX++) 


{ 


if(j>dest_dentry->name_length && tmpldentry->LDIR_ Namel[x] == 0xffff) 
continue; 
else if(j>dest_dentry->name_length || tmpldentry->LDIR Namel[x] != 


(unsigned short) (dest_dentry->name[j++])) 
goto continue_ cmp_fail; 


goto fingd_ lookup_success; 
continue_cmp_fail:; 
3 
cluster = DISK1_FAT32_ read_ FAT Entry (fsbi,cluster); 


find_lookup_success: 


p = (struct index node *)kmalloc(sizeof (struct index_ node),0); 

memset (p,0,sizeof (struct index_node)); 

p->file_size = tmpdentry->DIR_ FileSize; 

p->blocks = (p->file_ size + fsbi->bytes_per_cluster - 1)/fsbi->bytes_per_sector; 
p->attribute = (tmpdentry->DIR_Attr & ATTR_DIRECTORY) ? FS_ATTR_ DIR : FS_ATTR_FILE; 
p->sb = parent_inode->sb; 

p->f_ops = &FAT32_file_ops; 

p->inode_ops = &FAT32_inode_ops; 


p->private_index_info = (struct FAT32_inode_ info *)kmalloc(sizeof (struct 
FAT32_inode_info),0); 

memset (p->private_ index_info,0,sizeof (struct FAT32_inode_ info)); 

finode = p->private_index_info; 


finode->first_cluster = (tmpdentry->DIR_ FstClusHI<< 16 | tmpdentry->DIR_FstClusLO) 
&, ,0KOFEFEEEEE 

finode->dentry_location = cluster; 

finode->dentry_position = tmpdentry - (struct FAT32_ Directory *)buf; 

finode->create_ date = tmpdentry->DIR_ CrtTime; 

finode->create time = tmpdentry->DIR_ CrtDate; 

finode->write _ date = tmpdentry->DIR_ WrtTime; 

finode->write time = tmpdentry->DIR_ WrtDate; 


dest_dentry->dir_inode = p; 
kfree (buf); 
return dest_dentry; 
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long FAT32_ mkdir(struct index node * inode,struct dir _ entry * dentry,int mode){} 
long FAT32_rmdir(struct index_ node * inode,struct dir _ entry * dentry)t{} 
long FAT32_rename (struct index_ node * old_ inode,struct dir_ entry * old_ dentry,struct 
index_node * new_ inode,struct dir entry * new_ dentry){} 
long FAT32_getattr(struct dir_ entry * dentry,unsigned long * attr){} 
long FAT32_setattr(struct dir _ entry * dentry,unsigned long * attr){} 
struct index_node_ operations FAT32_inode_ops = 
{ 
.create FAT32_create, 
.lookup = FAT32_lookup, 
.mkdir = FAT32_mkdir, 
.rmdir = FAT32_rmdir, 
.rename = FAT32_rename, 
.getattr = FAT32_getattr, 
.Setattr = FAT32_setattr., 


}; 
代码 清单 13-40 是 目前 inode 结 构 的 全 部 操作 方法 实现 ， 其 中 的 FAT32_1ookup 函 数 负责 从 目录 项 
中 搜索 出 目标 子 目 录 项 ,， 它 在 原 lookup 函 数 的 基础 上 封装 了 VFS 结 构 。FAT32_1ookup 函 数 会 在 搜索 
到 目标 子 目 录 项 时 ， 对 子 目 录 项 进行 深入 初始 化 ， 这 个 过 程 会 为 子 目 录 项 创建 并 初始 化 inode 结 构 和 
索引 节点 的 特有 结构 (struct FAT32_ inode_ info )。 
path_walk 国 数 的 代码 重 构 过 程 还 将 波及 FAT 表 项 的 读 写 操 作 函 数 ,代码 清单 13-41 是 这 两 个 函数 
重 构 后 的 样子 。 


代码 清单 13-41 第 13 章 \ 程 序 \ 程 序 13-3\ 物 理 平台 \kernel\fat32.c 


unsigned int DISK1_FAT32_read_FAT_ Entry(struct FAT32_sb_info * fsbi,unsigned int 
fat_entry) 


unsigned int buf[128]; 

memset (buf,0,512); 

IDE device operation.transfer (ATA READ CMD, fsbi->FAT1 firstsector + (fat_entry >> 
7),1, (unsigned char *)buf); 

Color_printk (BLUE,BLACK, "DISK1_FAT32_read_FAT Entry fat_entry:%#0181x,%#010x\n", 
fat_entry,bufl[lfat_entry & Ox7f]); 

return bufl[lfat_entry & Ox7f] & OxOfffffff; 


} 
unsigned long DISK]1_FAT32 write FAT Entry (struct FAT32_sb_info * fsbi,unsigned int 
fat_entry,unsigned int value) 


unsigned int buf[128]; 

int i; 

memset (buf,0,512); 

IDE_ device _ operation.transfer (ATA_ READ CMD, fsbi->FAT1_ firstsector + (fat_entry >> 
7),1, (unsigned char *)buf); 

buf[fat_entry & 0x7f] = (buf[fat_entry & 0x7f] & Oxf0000000) | (value & Ox0Offfffff); 

for(i = 0;i < fsbi->NumFATs;i++) 
IDE_device_ operation.transfer (ATA WRITE_CMD, fsbi->FAT1_ firstsector + fsbi-> 

sector_per_FAT * i + (fat_entry >> 7),1, (unsigned char *)buf); 
return 1; 
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出 于 通用 性 考虑 ， 这 两 个 函数 都 追加 了 形式 参数 fsbi ， 根 据 此 参数 提供 的 FAT1 表 起 始 肩 区 号 、 


每 FAT 表 扇 区 数 和 FAT 表 数量 等 信息 可 轻松 完成 FAT 表 项 的 读 写 工作 。 


最 后 ， 再 来 看 看 FAT32 文 件 系 统 为 VFS 提 供 的 superblock、dentry 以 及 file 结 构 的 操作 方法 ， 
代码 清单 13-42 是 这 些 结 构 的 定义 。 其 中 的 FAT32_dentry_ops 结 构 负 责 为 缓存 目录 项 提供 操作 方 


法 ，FAT32_file_ops 绪 构 负 责 为 访问 文件 数据 提供 操作 方法 ， 而 FAT32_sb_ops 结 构 则 为 VFS 提 供 了 


操作 超级 块 和 索引 节点 的 方法 。 本 着 循序 渐进 的 原则 ， 本 章 暂 不 实现 Far32_file_ops 和 
FAT32_dentry_ops 结 构 中 的 操作 方法 ， 此 处 只 对 它们 进行 空 函数 赋值 。 


代码 清单 13-42 ”第 13 章 \ 程 序 \ 程 序 13-3\ 物 理 平台 \kernel\fat32.c 


void fat32_put_superblock(struct super_block * sb) 


{ 


} 


(sb->private_sb_info); 
(sb->root->dir_inode->private_index_info); 
kfree(sb->root->dir_inode); 

(sb->root); 

(sb); 


void fat32_ write_ inode(struct index node * inode) 


{ 


struct FAT32_Directory * fdentry = NULL; 

struct FAT32_Directory * buf = NULL; 

struct FAT32_inode_info * finode = inode->private_ index_info; 
struct FAT32_sb_info * fsbi = inode->sb->private_sb_info; 
unsigned long sector = 0; 

if (finode->dentry_location == 0) 


{ 


color_printk (RED,BLACK, "FS ERROR:write root inode!\n"); 
return ， 

} 

sector = fsbi->Data_ firstsector + (finode->dentry_location - 2) * fsbi->sector_ 
per_cluster; 

buf = (struct FAT32_Directory *)kmalloc (fsbi->bytes_per_cluster,0); 

memset (buf,0,fsbi->bytes_per_cluster); 

IDE_device operation.transfer (ATA_READ_ CMD, sector,fsbi->sector per_cluster, 

(unsigned char *)buf); 
fdentry = buf+finode->dentry_position; 


////alert fat32 dentry data 

fdentry->DIR_FileSize = inode->file size; 

fdentry->DIR_FstClusLO = finode->first_ cluster & Oxffff; 

fdentry->DIR_FstClusHI = (fdentry->DIR_FstClusHI & 0xf000) | (finode->first_ 
cluster >> 16); 


IDE_device_operation.transfer (ATA WRITE_ CMD, sector,fsbi->sector_ per_cluster, 
(unsigned char *)buf); 
kfree (buf); 


struct super_block_operations FAT32_sb_ops = 


{ 


.Write_superblock = fat32_write_ superblock, 
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.put_superblock = fat32_put_superblock, 
.write_ inode = fat32_write_ inode, 
二 
struct Qir_entry_operations FAT32_dentry_ops = 
{ 
.Compare = FAT32_compare, 
.hash = FAT32_hash, 
.release = FAT32_release, 
“LDut. Ss FAT32. 1pUty 
}; 
struct file operations FAT32_file ops = 
{ 
.open = FAT32_open, 
.Close = FAT32_close, 
.read = FAT32_read, 
.write = FAT32_write, 
.lseek = FAT32_lseek, 
OGLCL -三 EAT32 10O0Gt1,; 
二 


至 于 FAT32_sb_ops 结 构 ， 目 前 也 仅 实 现 了 put_superblock 操 作 方 法 和 write_inoae 操 作 方 


法 。put_superblock 方 法 


j 于 释放 superblock 结 构 、dqentry 结 构 、 根 目录 inode 结 构 以 及 文 从 


TT 


系 


统 的 特有 结构 ; write_inode 方 法 用 于 将 修改 后 的 inode 结 构 回 写 到 硬盘 扇 区 中 。 


经 过 漫长 的 VFS 设 计 与 实现 ,我 们 现在 


至 此 ，VFS 让 
现 。 这 是 因为 fi 


之 间 的 纽带 ， 因 此 它 在 系统 调用 API 库 一 章 中 实现 更 为 妥当 。 


<0000000000000220 
)000146000， )00002a621 
171000， 0140 


Ox0000000000 dc x gth:0x000000001fe00000 


E 来 看 看 它 的 运行 效果 ， 请 参见 图 13-19。 


)0000000,St 


)00000001fe00000 


慎 ; 轩 机" el 
ffff80000011d2 


图 13-19 VFS 框架 下 的 文件 搜索 效果 图 


E 架 已 经 基本 实现 ,细心 的 读者 可 能 会 发 现 本 节 对 file 结 构 提 及 其 少 ， 且 少 有 代码 实 


1e 结 构 不 仅 连 接着 VFS ， 还 连接 着 PCB 以 及 系统 调 上 


jAPI， 可 以 说 file 结 构 是 这 三 者 
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目前 ， 本 书 操作 系统 已 拥有 诸多 核心 模块 ， 既 然 系统 内 核 已 初 具 规模 ， 现 在 也 该 到 了 为 应 用 程序 
扁 写 操作 接口 的 时 候 。 那 么 ， 本 章 将 在 适当 参考 POSIX 规 范 标 准 的 基础 上 ， 从 现 有 核心 模块 中 为 应 用 
程序 抽象 出 系统 调用 API。 


14.1 系统 调用 API 结构 


系统 调用 API 是 应 用 程序 与 系统 内 核 的 主要 通信 方式 之 一 ， 它 将 系统 内 核对 外 提供 的 功能 封装 成 
操作 接口 ， 供 应 用 程序 使 用 。 虽 然 早 在 第 5 章 就 已 实现 系统 调用 API 的 处 理 过 程 ， 但 当时 仅 编 写 了 系统 
调用 API 的 基础 框架 ， 并 没有 遵照 某 一 规范 标准 去 实现 系统 调用 API 函 数 。 因 此 ， 本 章 将 从 系统 调用 
API 的 结构 开始 ， 再 次 对 系统 调用 API 进 行 深入 讲解 。 

对 Intel 64 位 处 理 器 而 言 ， 处 理 器 可 通过 三 对 汇编 指令 实现 系统 调用 API 入 口 程序 ， 它 们 分 别 是 传统 
的 INT n/IRET 指 令 、 快 速 调 用 指令 SYSENTER/SYSEXIT 和 AMD 处 理 器 兼容 指令 SYSCALL/VSYSRET。 通 
常情 况 下 ， 内 核 会 选择 其 中 一 对 汇编 指令 来 实现 系统 调用 API 和 人 口 程序 ， 图 14-1 示 意 了 基于 这 三 对 汇编 
指令 实现 的 系统 调用 API 框 架 结构 。 


TS 


应 用 层 | 内 核 层 
进程 1 
ey 系统 调用 向 量 夫 
| 系统 调用 API 入 口 函 数 
a i | YoPen 
让 sys_ fork 
SYSCALL/SYSRET 
进程 2 让 sysbrk 
flkg 
进程 3 
malloc() 
图 14-1 系统 调用 API 框 架 结构 示意 图 
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到 14-1 中 的 函数 open 、fork、malloc 均 来 自 系统 调用 API 库 ， 这 些 函 数 通过 系统 调用 API 和 人 口 程 


序 ， 将 系统 调用 向 量 号 和 函数 参数 发 送 至 系统 内 核 ， 系 统 内 核 会 像 处 理 中 断 请 求 一样 执 行 系统 调用 向 
量 表 里 的 处 理 程序 。 


应 用 程序 在 借助 系统 调用 API 入 口 程序 进入 内 核 层 期 间 ， 会 涉及 两 个 不 同 特权 级 间 的 切换 工作 。 


1 于 这 两 个 特权 级 的 栈 空 间 不 同 , 为 了 保证 数据 ( 向 量 号 和 参数 ) 快 速 、 顺利 地 在 两 个 特权 级 间 穿 梭 ， 


系统 调用 API 入 口 程序 通常 采用 寄存 融 传 递 参 数 方式 。 寄 存 右 传递 参数 方式 与 内 存 传递 参数 方式 相 


比 ， 


准 ， 


节省 了 两 个 特权 级 间 的 栈 复制 工作 ， 因 而 加 快 了 系统 调用 的 处 理 速 度 。 
为 了 保证 同一 套 代 码 可 运行 在 不 同 的 操作 系统 中 ， 一 些 组 织 制定 了 系统 调用 API 接 口 的 规范 标 
凡是 兼容 此 规范 标准 的 操作 系统 ， 只 需 重新 编译 代码 即 可 使 其 在 系统 中 和 运行。POSIX ( Portable 


Operating System Interface ， 可 移植 操作 系统 接口 ) 就 是 这 样 一 款 耳 熟 能 详 的 规范 标准 ， 它 历经 多 个 版 
本 的 完善 ， 现 已 被 多 款 操作 系统 支持 或 兼容 。 而 XSI ( X/Open System Interface， 开 放 系 统 接口 ) 规范 
标准 ， 则 是 POSIX 规 范 标准 的 超 集 。 支 持 XSI 标 准 的 操作 系统 ， 不 但 要 实现 POSIX 规 范 的 标准 接口 ， 
还 要 支持 POSIX 规 范 的 扩展 功能 。 
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Linux 作 为 兼容 POSIX 规 范 的 众多 操作 系统 之 一 ,也 是 本 章 代 码 实 现 的 重点 参考 对 象 。 虽然 短期 内 


呈 


本 系统 无 法 承载 POSIX 规 范 标 准 的 所 有 规定 ， 但 是 为 了 学 习 POSIX 规 范 标准 ， 我 们 应 该 尽量 让 代码 向 
POSIX 规 范 靠拢 。 


14.2.1 POSIX 规范 下 的 系统 调用 API 简介 


本 书 使 用 的 POSIX.1-2008 规 范 是 完全 遵照 ISO C(1999) 标 准 描述 的 , 但 POSIX.1-2008 规 范 不 能 保证 


和 ISO C(1999) 标 准 完全 没有 冲突 ， 就 算 有 也 是 源 于 考虑 不 周 所 致 。 


POSIX 规 范 定义 了 一 套 标准 的 操作 系统 接口 ( 系统 调用 API )、 环 境 、 命 令 解 析 器 (SHELL ) 以 及 


通用 命令 , 它 为 应 用 程序 带 来 了 源码 级 的 移植 能 力 。 而 图 形 接口 、 数 据 库 管理 系统 接口 、 记 录 IO 因 素 、 
目标 代码 和 二 进 制 代码 的 可 移植 性 、 系 统 配置 和 有 效 数据 源 等 内 容 ， 则 不 在 POSIX 规 范 限 定 范围 内 。 


POSIX 规 范 主要 提供 给 应 用 程序 开发 人 员 和 操作 系统 实现 者 使 用 。 


对 于 系统 调用 API 的 功能 和 特点 ，POSIX 规 范 已 给 出 明确 规定 ， 它 们 大 体 上 可 分 为 以 下 几 点 。 

口 系统 调用 API 函 数 的 实现 和 使 用 说 明 。 它 描述 系统 调用 API 接 口 和 宏 的 实现 与 使 用 规则 ， 除 非 

特殊 说 明 ， 否 则 所 有 函数 和 宏 都 遵照 统一 标准 予以 声明 、 定 义 、 实 现 和 使 用 。 

口 编译 环境 。 它 描述 头 文件 中 遵循 POSIX 规 范 的 符号 和 命名 空间 定义 。 

口 错误 码 。 它 描述 函数 在 执行 期 间 产生 的 错误 原因 ， 一 些 函 数 返 回 0 值 表示 操作 成 功 。 

口 信号 。 信 和 号 作为 一 种 重要 的 进程 /线程 间 通 信和 手段 ，POSIX 规 范 描述 了 信号 (包括 实时 信号 ) 
的 产生 、 投 递 、 处 理 以 及 对 XSI 进 程 间 通信 ( 包括 消息 传递 、 信 号 量 、 共 享 内 存 服 务 等 ) 扩展 
功能 的 支持 。 

口 标准 W/O 流 。 标 准 1O 流 可 来 自 一 个 物理 设备 (字符 设备 或 网 络 设 备 )、 内 存 缓存 区 或 已 打开 
文件 ，POSIX 规 范 为 访问 和 控制 数据 流 提供 了 一 系列 操作 接口 。 


hmm 


的 
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口 实时 。 这 部 分 对 信号 量 ( 部 分 功能 )、 实 时 信号 、 异 步 WO、 内 存 管理 ( 内 存 锁 、 文 件 映射 内 存 、 
内 存 保护 等 )、 进 程 调度 策略 、 进 程 间 通 信 、 时 钟 和 定时 器 等 功能 进行 规范 性 描述 。 
口 线程 。 对 线程 的 安全 、ID 、 互 斥 锁 、 调 度 、 销 毁 、 读 写 锁 、 文 件 操作 、 线 程 栈 的 管理 等 内 容 进 
行规 范 性 介绍 。 
口 socket 通 信 。socket 通 信 部 分 将 涉及 socket 地 址 类 型 和 格式 、 协 议 、 路 由 、 接 口 、socket 类 型 、 
socket IO 模式 等 内 容 。 

口 跟踪 。 介 绍 跟踪 功能 的 数据 类 型 、 事 件 类 型 定义 和 人 处理 函 数 。 
口 数据 类 型 。 介 绍 常用 的 数据 类 型 。 


以 上 这 些 内 容 不 仅 规定 所 有 支持 POSIX 规 范 的 系统 调用 API 的 功能 和 使 用 方法 ， 还 制约 着 内 核 层 
处 理 函 数 的 代码 实现 。 


14.2.2 ”升级 系统 调用 模块 


. 
隐患 
IN » 


wR 


寄存 器 传递 方式 ， 最 多 可 以 使 


虽然 此 前 编写 的 系统 调用 模块 可 以 完成 处 到 
器 值 传递 给 系统 调用 处 理 函 数 ， 这 种 过 于 硬朗 的 实现 方式 会 给 进程 和 内 核 天 
所 以 我 们 需要 对 系统 调用 模块 进行 升级 。 

系统 调用 模块 的 升级 过 程 需要 考虑 两 方面 制约 因素 : 一 方面 是 在 64 位 GNU C 编 译 器 下 ， 参 数 采 用 
j6 个 寄存 器 ， 它 们 分 别 是 RDI、RSI、RDX、RCX、R8 和 R9 寄 存 器 ; 另 
一 方面 是 通过 SYSsEXIT 汇 编 指 令 从 内 核 层 返回 到 应 用 层 时 , 操作 系统 必须 借助 RDX 和 RCX 寄 存 器 来 指 


系统 调用 的 功能 ， 但 它 会 在 进入 内 核 层 时 将 全 部 寄存 
来 诸多 不 稳定 因素 和 潜在 


定 应 用 层 的 RIP 与 RSP 寄 存 器 。 这 两 方面 因素 存在 着 一 个 制约 交集 , 那 就 是 在 它们 的 执行 期 间 都 必须 使 


有 RDX 和 RCX 寄 存 器 。 


为 了 解决 上 述 问 题 ， 同 时 也 为 了 便于 调试 ， 这 里 暂且 使 用 第 5 章 的 虚拟 平台 代码 作为 测试 工程 。 经 
过 多 版 glibc 库 和 Linux 内 核 的 源码 分 析 比 对 ， 最 终 将 系统 调用 模块 升级 成 代码 清单 14-1 和 代码 清单 14-2 的 


样子 。 


代码 清单 14-1 第 14 章 \ 程 序 \ 程 序 14- 八 虚拟 平台 \kernel\task.c 


void user_level_function() 


{ 


char stringl 
EOLGr brintr 


a to 
]="Hello World!\n"; 
(RED, BLACK, "user_level function task is running\n"); 
// call sys_putstring 
// int putstring{({char *string); 


_asm _ volatile _ ( 

"pushqa %$%r10 IN 

"pushqa SSr11 TINE™ 

"leaq Sysexit_return adgdress (%%rip), %$%$r10 
"movg S$%$rsp, $$Sr11 XnNE™ 
"sysenter NNEC 

"sysexit_return address: NONEY 

"xchgq $$rdx, $$%$r10 NTNEY 

"xchgq SEIrcx, S$%Sr11 YIN 


"oe 革 生 斌 二 二 KHIMNt™ 


\n\t" 
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"Dopd $$%$r10 nyt" 

:"=a" (errno) 

:"0"(_NR_ putstring), "D" (string) 
:"memory");} 


color_printk (RED,BLACK, "user_level_function task called sysenter,errno:%Sd\n", 


errno); 


while(1); 
} 


这 上段 代码 是 应 用 层 的 系统 调用 入 


口 程序 , 它 在 原 有 入 口 代码 的 基础 上 借助 寄存 器 R10 和 R11 来 保存 


应 用 层 的 返回 地 址 以 及 栈 指 针 地 址 。 为 了 便于 实现 后 续 的 printf 函 数 ， 现 在 已 将 原 日 志 信 息 显 示 哨 
数 sys_printf 更 名 为 sys_putstring。 
当 人 处 理 器 带 着 参数 进入 到 内 核 层 后 ， 内 核 会 根据 RAX 寄 存 器 记录 的 问 量 号 (__NR_putstring) 


行 ， 程 序 实现 如 代码 清单 14-2。 


直接 从 系统 调用 向 量 表 system_call_table 


代码 清单 14-2 第 14 章 \ 程 序 \ 程 序 14- 八 虚拟 平台 \kernel\entry.S 


ENTRY (system_ call) 


movg SO 区 ob Srax 
ImOVG Srax, sds 
movg Srax, Ses 
movd RAX(%rsp), Srax 
leag system call_ table(gsrip) ， Srbx 
callq “(SEDATEAKYS) 

movgd Srax, RAX (S$rsp) 

ENTRY (ret_system call) 

popq Sr15 
PopPd Srax 
addq SOx38， Srsp 
xchgq Srdx $r10 
xchgq Srcx Sr11 


sti 
.byte 0x48 
sysexit 


! 索 引出 处 理 函 数 的 入 口 地 址 ， 并 跳 转 至 该 地 址 处 执 


随 着 系统 调用 处 理 结 束 ， 处 理 器 通过 代码 片段 ret_system_cal1 从 内 核 层 切换 回应 用 层 ， 这 个 
过 程 会 将 寄存 器 RDX、RCX 的 数值 与 寄存 器 R10、R11 交 换 。 一旦 返回 至 应 
RCX、R10 和 R11 还 原 为 执行 系统 调用 前 的 数值 。 经 过 此 番 升 级 后 ， 孙 数 system_call_function 已 


用 层 ,， 立刻 把 寄存 器 RDX、 


在 阅读 Linux 3.x 及 后 续 内 核 源码 时 ， 发 现 系统 调用 向 量 表 system_call_table 的 定义 方法 已 有 


所 改进 , 它 握 弃 了 以 往 汇 编 式 系统 调 


用 向 量 表 的 定义 方法 (如 代码 清单 14-3 所 示 ) 转 而 采 


类 似 代码 
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清单 14-4 所 示 的 宏 式 系统 调用 向 量 表 定义 方法 。 
代码 清单 14-3 ”定义 宏 式 系统 调用 向 量 表 的 示例 代码 


ENTRY (sys_call_table) 
sys_restart_syscall 
Sys_exit 
sys_fork 


.long 
.long 
.long 


代码 清单 14-4 ”第 14 章 \ 程 序 \ 程 序 14- 放 虚拟 平台 \kernel\syscalls.c 


"unistd.h" 


#include 


#define 


SYSCALL_ COMMON (nr, sym) 


SYSCALL COMMON (0,no_system call) 
"yecalles. nn" 
#undef SYSCALL COMMON 


#include 


#define SYSCALL COMMON (nr,sym) [nr] = sym, 


#define MAX_SYSTEM CALL NR 128 
typedef unsigned long (* system call 七 ) (void); 


system call_t system call_ table[MAX_SYSTEM CALL NR] = 


{ 


EO: se 


#include 


} . 


MAX_SYSTEM_CALL_ NR-1] = no_system call, 


"syscalls.h" 


来 取消 第 一 次 SYscALL_COMMON 宏 函数 定义 ， 进 而 使 第 二 次 宏 函 数 定义 生效 。 
这 段 代码 还 引入 了 头 文件 unistdh 和 syscallsh， 它 们 分 别 记 录 着 系统 调用 向 量 号 和 对 应 的 处 理 函 

数 ， 代 码 清单 14-5 和 代码 清单 14-6 是 这 两 个 头 文件 的 内 容 。 

代码 清单 14-5 ”第 14 章 \ 程 序 \ 程 序 14- 作 虚拟 平台 \kernel\syscalls.h 


SYSCALL COMMON(__NR putstring,sys_putstring) 


代码 清单 14-6 
#define 
使 用 gcc - 

在 syscalls.c 文 件 中 展 玫 

代码 清单 14-7 sysc 


[r 
Ht 
# 


oot@localhos 
1 "syscalls.c" 
1 Tepbutlt=inSn 


第 14 章 \ 程 序 \ 程 序 14- 八 虚拟 平台 \kernel\unistd.h 


_ NR putstring 1 


命令 预 处 理 syscalls.c 文 件 ， 可 显示 出 syscalls.c 文 件 预 处 理 ( 把 


F ) 后 的 代码 ， 代 码 清 单 14-7 是 预 处 理 后 的 代码 。 
alls.c 文 件 的 预 处 理 信息 


t kernel]# gccec -E syscalls.c 


extern unsigned long sym(void); 


代码 清单 14-4 中 的 宏 函 数 SYscaALL_COMMON 被 定义 了 两 次 ， 第 一 次 SYSsCALL_COMMON 宏 图 数 定义 
用 于 声明 系统 调用 向 量 表 system_cal1_table 的 处 理 函 数 名 ， 第 二 次 SYSCAi 
用 于 将 第 一 次 声明 的 处 理 函 数 加 入 到 系统 调用 向 量 表 system_call_table。 ] 


LL_COMMON 实 子 数 定义 
比 处 使 用 关键 字 #undef 


unistd.h 和 syscalls.h 文 件 
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16 


17 


.en 
.h" 1 
es 


"<command-line>" 

"/usr/include/stdc-predef.h" 1 3 4 

"<command-line>" 2 

"syscall 
"syscal 
"unistd 
"syscal 

extern unsigned long no system call (void); 


Sic 
由 全 


ls 2 


17 


1 "syscall 
"syscal 


Ss 十 
Le 1 


extern unsigned long sys putstring (void); 
站 这 二 让 
typedef unsigned long (* system call t£) (void); 
SYStem call t System call table[128] = 
工 
[0 ... 128 -1] = 


no system ca 了， 


# 1 "syscalls.h" 1 

tt "1 MyeSeadlLls. hh” 

[1] = sys putstring, 

非 5 Cll 2 

2 

代码 清单 14-7 中 的 斜体 下 划 线 文字 是 syscalls.c 文 件 的 预 处 理 命令 和 预 处 理 后 的 有 效 代 码 。 此 时 的 代 


人 码 已 一 目 了 然 ， 函 数 no_system_call 和 sys_putstring 的 定义 位 于 sys.c 文 件 内 ,代码 清单 14-8 是 它们 
的 程序 实现 。 


代码 清单 14-8 ”第 14 章 \ 程 序 \ 程 序 14- 八 虚拟 平台 \kernel\sys.c 


unsigned long no_system call (void) 

{ 
Color_printk (RED,BLACK, "no_system call is calling\n"); 
return -ENOSYS; 

} 

unsigned long sys_putstring(char *string) 

{ 
Color_printk (GREEN, BLACK, "sys_putstring\n"); 
Color_printk (ORANGE,WHITE, string); 
return 0; 


} 


细心 的 读者 会 发 现代 码 清单 14-7 声 明 的 sys_putstring 


函数 与 代码 清单 14-8 定 义 的 svs_putstring 


:并 未 出 现 人 


E 何 错误 和 警告 。 


函数 参数 不 一 致 ， 而 且 程序 的 编译 、 链 接 过 程 

这 是 一 种 函数 名 赔 变 成 指针 的 现象 ， 数 组 system_call_table 内 的 元 素 只 是 引用 了 也 数 
sys_putstring 的 地 址 。syscalls.c 文 件 的 编译 过 程 中 并 不 会 对 外 部 声明 的 sys_putstring 函 数 进行 
检查 ， 这 个 函数 只 被 看 作 是 一 个 待 填充 的 地 址 值 。 在 程序 链接 期 间 ， 链 接 右 会 将 sys.c 文 件 里 的 
sys_putstzring 国 数 的 地 址 值 ， 填 充 到 数组 system_cal1_table 的 元 素 里 。 这 种 赔 变 现象 与 数组 退 
化 成 指针 的 行为 类 似 ， 即 函数 总 是 通过 指针 进行 调用 ,所 有 “真正 的 ” 琐 数 名 总 是 隐 式 地 退化 成 指针 。 
我 们 通过 此 方法 可 有 效 规避 不 同 参 数 的 处 理 函 数 带 来 的 编译 、 链 接 问 题 , 但 利 与 次 是 相互 的 ， 请 读者 
在 使 用 时 多 加 小 心 ! 

现在 ,系统 调用 模块 的 主体 框架 已 基本 实现 , 但 还 需要 对 do_execve 函 数 做 一 些 调整 ， 以 使 它 能 
与 新 的 系统 调用 模块 相 吻 合 ， 详 细 调 整 代 码 如 代码 清单 14-9。 
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代码 清单 14-9 


的 


第 14 章 \ 程 序 \ 程 序 14-1\ 虚 拟 平台 \kernelNtask.c 


unsigned long do_execvel(struct pt_regs * regs) 


{ 

// regs->rdx = 0x800000; 

// regs->rcx 0xa00000; 
regs->r10 0x800000;，; 
regs->r1l1 = 0xa00000; 


//RIP 
//RSP 
//RIP 
//RSP 


经 过 此 番 修 改 ， 应 用 程序 user_level_function 方 可 正常 运行 。 


POSIX 标 准 规定 系统 调用 API 库 必须 扩 
个 。 因 此，user_level_function 了 哺 数 中 


有 一 个 名 为 int errno 的 全 局 变量 来 记录 系统 调用 的 错误 
的 局 部 变量 long ret 和 暂且 变更 为 int errno， 当 应 用 层 


系统 调用 API 库 实现 后 ， 我 们 再 将 局 部 变量 int errno 修 正 为 全 局 变量 。 
POSIX 标 准 还 定义 了 多 种 错误 类 型 ， 每 个 系统 调用 能 够 返回 的 错误 类 型 在 POSIX 规 范文 档 中 均 有 
录 ， 代 码 清单 14-10 是 部 分 错误 类 型 的 错误 码 定 义 ，no_system_cal1 国 数 返回 的 错误 码 ENOSYS 也 


记 

在 其 中 。 

代码 清单 14-10 第 
#define ENOMSG 
#define ENOPROTOOPT 
#define ENOSPC 
#define ENOSR 
#define ENOSTR 
#define ENOSYS 
#define ENOTCONN 
#define ENOTDIR 
#define ENOTEMPTY 
#define ENOTRECOVERABLE 


平 


50 多 
51 A 
52 人 
S53 多 
54 
55 <* 
56 
57 A 
58 人 
59 /党 


14 章 \ 程 序 \ 程 序 14- 直 虚拟 平台 \kernelverrnoh 


No message of the desired type */ 
Protocol not available */ 

No space left on a device */ 

No STREAM resources */ 

Not a STREAM */ 

Function not implemented */ 
Socket not connected */ 

Not a directory */ 

Directory not empty */ 

State not recoverable */ 


至 此 ,系统 调用 模块 的 升级 工作 已 经 结束 ， 图 14-2 是 它 在 Bochs 虚 拟 机 中 的 运行 效果 ， 这 套 代码 可 


滑 移 植 到 物理 平台 。 


Ps: 3.2 


Bochs x86-64 emulator, http:/bochs.sour 


图 14-2 


升级 后 的 系统 调 
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接 下 来 ， 将 系统 运行 环境 切换 


回 物 理 平 台 ， 在 继续 实现 更 多 系统 调用 API 前 ， 这 里 先 为 系统 实现 


一 对 常用 的 数据 复制 函数 copy_from_user 和 copy_to_user。 这 对 卫 数 与 nemcpy 子 数 的 功能 基本 相 
同 ， 只 不 过 这 对 函数 会 检测 应 用 程序 提供 的 应 用 层 操 作 地 址 空间 是 否 越界 。 从 地 址 空间 的 安全 性 和 有 


效 性 角度 来 看 ， 这 对 函数 还 应 该 进一步 而 


大 地 影 


留 给 #PF ( 缺 页 ) 异常 统一 处 理 。 代 码 清单 14-11 是 这 对 函数 的 程序 实现 。 


代码 


清单 14-11 第 14 章 \ 程 序 \ 程 序 14- 八 物理 平台 \kernel\lib.h 


inline long verify_area(unsigned char* addr,unsigned long size) 
{ 
if(((unsigned long)addr + size) <= (unsigned long)O0x00007fffffffffff ) 
return 1; 
else 
return 0; 
} 
inline long copy_from user(void * from,void * to,unsigned long size) 
* 
unsigned long d0,dl1; 
if(!verify_areal(from,size)) 


return 0; 

_asm _ volatile _ ( "rep NN 
"movsq WINE 
"movg S37 C0 NE 
"rep NENEY 
"movsb NnNE™ 
sae (SizZe) "ED (dQ "ss" (dL) 
:"r"(size & 7),"0"(size / 8),"1"(to),"2"(from) 


:"memory"); 

return size; 
} 
inline long copy_to user(void * from,void * to,unsigned long size) 
{ 

unsigned long d0,d1; 

if(!verify_area (to,size)) 

return 0; 


外 保 应 用 层 操 作 地 址 空间 已 建立 页 表 映 射 。 可 是 在 一 个 频繁 使 
用 的 函数 中 加 入 小 概率 事件 的 检测 代码 ， 将 会 严重 消耗 处 理 咒 的 性 能 在 无 意义 的 数据 检测 上 ， 从 而 极 
响 程序 的 运行 速度 。 为 了 避免 此 类 性 能 损耗 ， 这 对 函数 将 不 做 页 表 上 映射 检测 ， 而 是 把 潜在 隐患 


这 里 的 函数 verify_area 主 要 用 于 验证 应 用 层 操作 地 址 空间 是 否 发 生 越 界 ( 必须 确保 操作 地 址 空 
0x0~0x00007fffffffffff 范 围 内 )。copy_from_user 和 copy_to_user 国 数 的 主体 代码 由 同 


间 在 


一 段 汇 编程 序 组 成 ， 这 段 程 序 借助 Movs 汇 编 指 令 将 from 地 址 处 的 数据 复制 到 to 地 址 处 。 这 段 汇编 程 


序 执行 结束 后 ， 形 参 from 和 to 仍 指向 操作 空间 的 首 地 址 ， 如 果 将 输出 部 分 和 输入 部 分 调整 为 代码 清 


单 14 


-12 所 示 的 样子 ， 那 么 形 参 from 和 to 将 会 随 着 程序 的 执行 而 发 生 改 变 。 


代码 清单 14-12 copy_from_user 图 数 的 调整 示例 代码 


:"=&c" (Size)，"+&D" (to), "+&S" (from) 
:"r"(size & 7),"0"(size / 8) 
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当代 码 执行 结束 后 ， 


形 参 from 和 to 将 会 指向 操作 空间 地 址 的 末尾 处 。 如 果 将 "=&c" (size) 改 为 


"+c" (size)， 那么 输入 部 分 不 允许 再 有 RIECX 寄 存 髓 的 操作 ， 也 就 是 说 此 处 的 "+c" (size) 不 能 与 


"0" (size / 8) 共 存 。 这 些 编程 技巧 不 仅 是 为 了 诠释 第 2 章 的 相关 知识 ， 也 为 了 给 编程 时 遇 到 困难 的 


读者 提供 一 些 解决 思路 。 


14.2.3 ”基础 文件 操 
尽管 目前 的 系统 内 核 


作 的 系统 调用 API 实现 
已 经 初 具 规模 ， 能 够 实现 进程 创建 、 内 存 分 配 等 相关 系统 调用 API， 可 是 这 


些 功能 随 着 开发 进度 的 推进 已 被 我 们 搁置 许久 ， 相 关 记忆 和 设计 思路 也 已 模糊 不 清 。 所 以 ， 此 刻 应 该 


趁 热 打 铁 在 虚拟 文件 系统 


的 基础 上 ， 进 一 步 将 VFS 层 的 抽象 接口 与 系统 调用 API 相 结合 为 妙 。 


下 面 将 结合 POSIX 规 范 的 相关 描述 ， 逐 步 实现 文件 的 打开 、 关 闭 、 读 取 、 写 入 以 及 位 置 索 引 等 系 


统 调用 API。 
1. 文件 的 打开 操作 
对 于 有 编程 基础 的 读 
(调用 者 )， 仅 需 了 解 函 数 
知 ， 却 没有 几 人 能 将 其 功 
函数 的 使 用 者 之 所 以 
筹 帷 幅 到 函 数 的 每 个 细 
函数 的 标准 规范 也 逐渐 形 


用 API 孙 数 的 功能 、 参 数 、 


者 而 言 ， open 是 一 个 再 熟悉 不 过 的 基础 函数 。 其 实 , 绝 大 部 分 函数 的 使 用 者 
的 一 小 部 分 功能 即 可 满足 开发 所 需 ， 这 使 得 系统 调用 API 函 数 虽 被 大 家 所 熟 
能 、 参 数 、 返 回 值 、 错 误 码 等 细节 逐一 解释 清楚 。 

能 够 轻松 调用 系统 API 函 数 ， 完 全 是 源 于 操作 系统 开发 者 在 实现 函数 时 ， 运 
节 。 随 着 操作 系统 开发 者 对 函数 功能 普遍 性 、 通 用 性 的 总 结 与 归纳 ， 系 统 API 
成 。 本 章 使 用 的 POSIX 规 范 就 是 其 中 的 一 个 典范 ，POSIX 规 范 对 每 个 系统 调 
返回 值 、 错 误 码 等 诸多 细节 都 有 描述 ， 它 既 可 作为 系统 开发 人 员 实 现 系统 


调用 API 函 数 的 指导 ， 亦 可 作为 函数 使 用 者 的 系统 调用 API 功 能 的 查询 手册 。 


想必 读者 对 于 如 何 使 
者 来 说 很 可 能 是 第 一 次 。 
规范 出 发 是 一 个 不 错 的 选 
描述 的 。 


函数 名 int open 
功能 摘要 打开 文件 ， 
头 文 件 #include 


用 系统 调用 API 编 写 程序 并 不 防 生 , 但 如 何 实现 一 个 系统 调用 API 却 对 广大 读 
每 当 涉 足 新 的 领域 ， 起 初 总 是 给 人 迷茫 的 感 党 ， 在 无 从 着 手 时 从 原理 或 标准 
择 。 那 么 ， 接 下 来 就 从 表 14-1 出 发 ， 看 看 POSIX 规 范 是 如 何 对 open 函 数 进行 


表 14-1 open 函 数 简介 表 
(const char *path,int oflag,...) 
这 个 过 程 将 使 文件 和 文件 描述 符 建立 关联 


<fcntl.h> 


描述 open 了 因数 将 为 文件 建立 一 个 文件 描述 符 ， 这 个 文件 描述 符 可 供 IO 操 作 函 数 访问 文件 使 用 ， 在 cpen 
函数 执行 后 ， 文 件 当 前 访问 位 置 位 于 文件 起 始 处 。 文 件 描述 符 是 进程 私有 的 ， 不 会 与 系统 内 的 其 他 
进程 共享 
参数 const char *path 措 述 目标 文件 的 路 径 名 
int oflag 文件 操作 标志 位 , 描述 文件 的 访问 模式 和 操作 模式 , 应 用 程序 在 执行 open 
也 数 时 ， 应 该 明确 指出 文件 的 访问 模式 ， 以 下 是 各 标志 位 的 定义 
O_EXEC 以 只 执行 方式 打开 文件 
O_RDONLY 以 只 读 方 式 打 开 文 件 
O_RDWR 以 读 写 方式 打开 文件 
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( 续 ) 
O_SEARCH 以 只 搜索 方式 打开 目录 
O_WRONLY 以 只 写 方式 打开 文件 
O_APPEND 以 追加 方式 操作 文件 (位置 索引 指向 文件 末尾 ) 
O_CREAT 当 文 件 不 存在 时 ,创建 文件 ， 否 则 无 效果 
O_DIRECTORY 打开 一 个 目录 
O_EXCL, 通常 与 0_cREAT 联 合 使 用 
O_NOCTTY 非 控制 终端 标志 位 
O_NOFOLLOW 非 符 号 链接 标志 位 
O_NONBLOCK 与 设备 或 管道 的 操作 相关 
O_TRUNC 以 只 写 或 读 写 方式 打开 文件 时 , 文件 长 度 设置 为 0 
返回 值 int 如 果 open 函 数 执行 成 功 ， 则 返回 一 个 最 小 未 使 用 的 正 整 数 ( 句柄 ) 来 代 
表 这 个 文件 对 应 的 文件 描述 符 ， 如 果 执 行 失败 ， 则 返回 -1，errno 变 量 
会 记录 错误 码 
错误 码 EACCES 访问 权限 不 足 或 创建 文件 失败 
EEXIST 文件 已 存在 
EINTR 在 函数 执行 期 间 被 信号 打 断 
EINVAL 参数 of1ag 无 效 
EIO 发 生 VO 错 误 
EISDIR 习 标 文件 名 是 个 目录 
ELOOP 路 径 名 存在 链接 循环 
EMFILE 进程 无 空 闪 文件 描述 符 
ENAMETOOLONG 路 径 名 过 长 
ENFILE 系统 无 空闲 文件 描述 符 
ENOENT 昌 标 文件 或 目录 不 存在 
ENOSPC 文件 系统 无 剩余 空间 
ENOTDIR 在 路 径 检索 期 间 发 现 非 目 录 项 
ENXIO 设备 文件 不 存在 
EOVERFLOW 文件 过 大 导致 溢出 
EROFS 文件 系统 只 读 
ETXTBSY 文件 正在 执行 中 ， 无 法 进行 读 写 操 作 
从 上 表 的 描述 中 可 以 看 出 ，open 国 数 的 声明 为 int open (const char *path,int oflag,...)，, 14 
其 中 的 省 略 部 分 用 户 可 自由 定义 。Linux 内 核 在 open 函数 原型 的 基础 上 追加 一 个 访问 权限 参数 noae。 


虽然 Linux 内 核 代 码 一 直 在 升级 变化 ,但 对 于 系统 调用 API 的 函数 声明 而 言 ， 不 同 版 本 的 函数 声明 源码 
后 生成 的 代码 基本 相同 ,以 本 节 的 open 函 数 为 例 , 它 的 函数 声明 大 体 上 会 被 预 编译 为 ]ong 


const char *filename,int flags,int mode)。 


经 过 预 编译 


SYS_open ( 
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由 于 本 系统 目前 暂 不 支持 多 


用 户 操作 ，ocpen 函 数 也 就 无 需 追 加 新 的 参数 ， 使 用 POSIX 规 范 提供 的 


open 函 数 原型 即 可 。 又 因为 C 语 言 的 可 变 参 数 功能 是 基于 参数 压 栈 实现 的 ， 在 执行 系统 调用 的 过 程 中 


会 发 生 栈 空间 切换 ， 以 至 于 操作 系统 必须 使 用 寄存 器 传 参 方式 ， 所 以 系统 调 
该 是 固定 值 。 故 此 ，ocpen 函 数 在 本 系统 内 核 层 的 声明 为 unsignedq long sys_open (char *filename, 
int flags), 在 应 用 层 的 郴 数 声明 为 int open (Const char *path,int 

为 了 尽量 遵照 POSIX 规 范 实 现 open 函 数 ， 这 里 先 为 of lag 参 数 准备 一 系列 文件 操作 标志 位 宏 ， 


们 定义 于 头 文件 fentLh 中 ， 如 代码 清单 14-13 所 示 。 
代码 清单 14-13 


#define O_RDONLY 00000000 A 
#define O_WRONLY 00000001 ya 
#define O_RDWR 00000002 A* 
#define O_ACCMODE 00000003 7 
#define O_CREAT 00000100 人 
#define O_EXCL 00000200 /和 
#Qefine O_NOCTTY 00000400 人 A 
#define O_TRUNC 00001000 pe 
#define O_APPEND 00002000 人 天 
the file */ 

#define O_NONBLOCK 00004000 
#define O_EXEC 00010000 A 
#define O_SEARCH 00020000 人 
#define O_DIRECTORY 00040000 /A* 
#define O_NOFOLLOW 00100000 


用 API 函 数 的 参数 数量 应 


oflag)。 


已 
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read-only */ 
write-only */ 
read/write */ 
for file access modes */ 


Open 
Open 
Open 
Mask 


Create file if it does not exist */ 
Fail if file already exists */ 
Do not assign controlling terminal */ 


IE the file exists and is a regular file, 

angd the file is successfully opened O_RDWR or 
O_WRONLY, its length shall be truncated to 0 */ 
the file offset shall be set to the end of 


Non-blocking I/O mode */ 
Open for execute only (non-directory files) */ 
Open directory for search only */ 


must be a directory */ 
Do not follow symbolic links */ 


这 上段 宏 定义 采用 八进制 数 表示 法 ， 主 要 是 为 了 方便 阅读 并 无 其 他 目的 。 现 在 ，open 函 数 的 准备 工 


作 已 经 就 绪 ， 下 面 将 逐步 实现 系统 调 
在 实现 sys_open 国 数 之 前 ， 我 们 


规范 制定 ， 这 样 一 来 便 限 制 了 我 们 的 潜力 ， 这 也 算是 基于 标准 规范 实现 函数 的 一 个 普遍 性 难 
表 14-1 对 open 函 数 的 描述 可 知 ，sys_open 函 数 将 根据 参数 filename 提 供 的 文件 路 径 名 搜索 
件 ， 并 以 flags 参 数 提供 的 访问 方式 打开 目标 文件 。 如 果 
那么 sys_open 函 数 会 为 目标 文件 创建 一 个 文件 描述 符 ， 再 把 文件 描述 符 与 当前 进程 绑 定 起 来 ; 如 果 
不 满足 打开 条 件 ， 或 在 绑 定 进程 过 程 中 出 现 错误 ， 则 返回 错误 码 。 

当 sys_open 孙 数 的 设计 思路 明确 后 , 一些 读者 可 能 会 直接 使 用 参数 
目标 文件 ， 这 种 方法 也 许 会 达到 预期 效果 ,但 原则 上 不 推荐 此 种 方式 。 因 为 进程 从 应 用 层 进 
入 内 核 层 期 间 会 切换 堆栈 空间 ， 不 论 参数 来 自 栈 空间 还 是 堆 空间 ， 它 都 属于 应 


录 中 搜索 


用 API 处 理 函 数 sys_open。 
必须 对 其 有 明确 的 设计 思路 。 


因为 函数 的 “外 貌 ” 已 由 POSIX 


点 。 根 据 
目标 文 
目标 文件 满足 flags 参 数 提供 的 打开 条 件 ， 


作 


filename 提 供 的 路 径 名 去 日 


j 层 数据 段 ， 出 于 安全 


性 考虑 ， 即 使 应 用 层 地 址 空间 与 内 核 层 重合 ， 内 核 程 序 也 不 应 该 访问 应 用 层 数据 。 所 以 ， 正 确 的 解决 
办 法 是 先 对 应 用 层 数据 空间 进行 验证 ， 在 确保 数据 空间 的 安全 性 后 ， 再 将 应 用 层 数据 复制 到 内 核 空间 
中 访问 ， 代 码 清单 14-14 是 数据 验证 过 程 与 数据 复制 过 程 的 代码 实现 。 
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代码 清单 14-14 ”第 14 章 \ 程 序 \ 程 序 14- 和 \ 物 理 平台 \kernel\sys.c 


unsigned long sys_open(char *filename,int flags) 
char. * path. = NIELS 
long pathlen = 0; 
long error = 0;，; 
struct dir_ entry * dentry = NULL; 
struct file * filp = NULL; 
struct filé ** f = NULL; 
int fd = = 
int i; 


Color_printk (GREEN, BLACK, "sys_open\n"); 

path = (char *)kmalloc (PAGE 4K_SIZE,0); 
if(path == NULL) 

return -ENOMEM; 

memset (path,0,PAGE 4K_SIZE); 

pathlen = strnlen user (filename,PAGE 4K_ SIZE); 
if(pathlen <= 0) 

{ 


kfree (path); 

return -EFAULT; 
} 
else if(pathlen >= PAGE 4K_SIZE) 
{ 

kfree (path); 

return -ENAMETOOLONG; 


} 


strncpy_from user (filename,path,pathlen); 


这 段 代 码 通过 函数 strnlen_usr 和 strncpy_from_user 复 制 filename 人 参数 保存 的 目标 路 径 
名 ， 这 两 个 函数 的 特别 之 处 是 它们 都 会 借助 verify_area 函 数 对 数据 空间 的 安全 性 进行 验证 。 

在 目标 路 径 名 长 度 的 检测 过 程 中 ， 如 果 strnlen_usr 困 数 返回 0 说 明 参 数 filename 提 供 的 地 址 
越界 ， 如 果 返 回 值 超过 PAGE_4K_STZzE， 说 明 参 数 filename 保 存 的 字符 串 过 长 。 如 果 参 数 filename 
通过 检测 ， 那 么 这 段 代 码 会 将 目标 路 径 名 从 应 用 层 复 制 到 内 核 层 。 

经 过 目标 路 径 名 的 检测 和 复制 后 , 此 刻 内 核 层 已 经 拥有 一 个 目标 路 径 名 的 副本 path。 接 下 来 将 借 
助 路 径 搜 索 函 数 path_walk 查 找 目标 文件 ， 详 细 代 码 如 代码 清单 14-15。 


代码 清单 14-15 ”第 14 章 \ 程 序 \ 程 序 14- 人 \ 物 理 平台 \kernel\sys.c 


dentry = path walk (path,0); 


kfree (path); 
/1/1/1111111111111/ 
if(dentry != NULL) 

Color_printk (BLUE,WHITE, "Find 89AIOlejk.TxXT\nDIR_ FirstCluster:%#0181x\ 
tDIR_ FileSize:%#018]x\n", ((struct FAT32_inode_info *) (dentry->dir_inode-> 
private_index_info))->first_cluster,dentry->dir_inode->file size); 

else 


Color_printk (BLUE,WHITE, "Can tt find file\n"); 
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if(dentry == NULL) 
return -ENOENT; 
if (dentry->dir_inode->attribute == FS_ATTR_DIR) 


return -EISDIR; 

路 径 搜 索 函 数 path_walk 虽 早已 实现 , 但 从 此 处 对 它 的 调用 来 看 , 它 显 然 是 一 个 通用 函数 ， 应 该 
属于 虚拟 文件 系统 层 ， 故 我 们 将 path_walk 函 数 和 根 文件 系统 指针 root_sb 从 fat32.c 迁 移 至 VFS.c。 
当 path_walk 函 数 成 功 返 回 目 标 文件 的 目录 项 结构 后 ， 我 们 还 需 进一步 对 目录 项 的 属性 进行 检测 。 
open 函 数目 前 的 任务 是 为 文件 和 文件 描述 符 建 立 关联 ， 如 果 sys_open 函 数 发 现 目 标 是 一 个 目录 ， 那 
么 暂且 认为 发 生 错 误 ， 返回 错误 码 EISDIR。 

出 于 临时 验证 目的 ， 这 段 代 码 还 打印 出 目标 文件 的 起 始 艇 号 、 文 件 长 度 等 信息 ， 这 些 信息 在 open 
函数 的 验证 阶段 非常 有 帮助 。 

当 目 录 项 成 功 通过 检测 后 ， 接 下 来 将 为 目标 文件 创建 文件 描述 符 ， 文 件 描 述 符 使 用 第 13 章 定义 的 
struct file 结 构 体 表示 。 代 码 清 单 14-16 是 文件 描述 符 的 初始 化 赋值 过 程 ， 其 中 会 使 用 到 inoqe 结 


构 (struct index_node) 和 dentry 结 构 (struct dir_entry ) 的 成 员 变 量 。 


代码 清单 14-16 第 14 章 \ 程 序 \ 程 序 14-2\ 物 理 平台 \kernel\sys.c 


filp = (struct file *)kmalloc(sizeof (struct file),0); 
memset (filp,0,sizeof (struct file)); 
filp->dentry = dentry; 
filp->mode = flags; 
filp->f_ops = dentry->dir_inode->f_ops; 
if (filp->f_ops && filp->f ops->open) 
error = filp->f_ops->open(dentry->dir_ inode,filp); 
if(error != 1) 
{ 
kfree (filp); 
return -EFAULT; 
} 


if (filp->mode & O_TRUNC) 
{ 
filp->dentry->dir_inode->file_ size = 0; 
} 
if (filp->mode & O_APPEND) 
{ 
filp->position = filp->dentry->dir_inode->file_ size; 


} 

文件 描述 符 在 逻辑 层面 代表 着 一 个 文件 ， 它 的 初始 化 过 程 将 受到 参数 flags 的 影响 ， 例 如 ， 
O_TRUNC 标 志 位 会 改变 文件 的 长 度 、o_APPEND 标 志 位 会 改变 文件 的 当前 访问 位 置 等 。 读 者 可 根据 
表 14-1 对 文件 操作 标志 位 的 描述 来 理解 参数 flags 对 文件 初始 化 过 程 的 影响 。 

以 上 这 段 程序 比较 容易 理解 ， 其 中 却 蕴 藏 着 虚拟 文件 系统 的 精髓 。VFS 将 文件 抽象 为 文件 描述 符 
和 一 系列 操作 方法 (如 filp->f_ops->open )， 当 文件 作为 连接 不 同 模块 的 纽带 时 ， 即 使 相同 的 系统 
调用 API， 也 会 因为 操作 方法 的 实现 不 同 而 动作 各 异 。 此 时 的 open 函 数 指针 实际 指向 FAT32 文 件 系 统 
的 打开 函数 ， 这 个 函数 目前 无 需 实现 具 体 功能 ， 返 回 成 功 即 可 ， 函 数 实现 请 参见 代码 清单 14-17。 
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代码 清单 14-17 ”第 14 章 \ 程 序 \ 程 序 14- 入 物理 平台 \kernel\fat32.c 


long FAT32_open(struct index node * inode,struct file * filp) 
{ 


return 1; 


} 
尽管 此 刻 的 FAT32_open 是 个 空 函 数 , 但 它 意味 着 VFS 已 为 即将 实现 的 设备 驱动 模型 打下 了 夯实 
的 基础 。 
随 着 文件 描述 符 结构 的 初始 化 完毕 ， 下 面 将 为 文件 和 文件 描述 符 建 立 映射 关系 。 因 为 文件 的 操作 
者 是 进程 ， 所 以 很 容易 推测 出 文件 描述 符 的 拥有 者 是 PCB 。 既 然 文 件 描述 符 结构 是 动态 创建 的 ， 那 么 
PCB 只 需 足 够 的 指针 来 保存 文件 描述 符 即 可 , 代码 清单 14-18 是 为 PCB 追 加 的 文件 描述 符 指 针 数 组 以 及 
初始 化 宏 函 数 ， 目 前 暂 为 每 个 进程 分 配 10 个 文件 描述 符 指针 。 


代码 清单 14-18 ”第 14 章 \ 程 序 \ 程 序 14-2\ 物 理 平台 \kernel\task.h 


#define TASK_FILE MAX 10 


struct task_struct 


struct file * file struct [TASK_FILE MAX]; 
外 
#define INIT_TASK (tsk) \ 


"fie SEruet.= {0 \ 
} 


在 Linux 内 核 中 ， 当 PCB 拥 有 的 文件 描述 符 数量 保持 在 一 定 范围 内 时 ，PCB 会 使 用 指针 数组 来 管理 
它们 ; 如 果 文 件 描述 符 数量 超过 此 范围 ， 那 么 PCB 将 改 用 动态 指针 数组 去 管理 它们 。 此 种 方法 既 兼 顾 
PCB 的 体积 ， 又 兼顾 打开 海量 文件 时 的 指针 不 足 。 对 于 只 有 10 个 文件 描述 符 指针 的 PCB 来 说 ， 这 种 设 
计 方 法 显然 大 材 小 用 。 

有 了 保存 文件 描述 符 的 指针 数组 ， 现 在 将 从 其 中 搜索 出 空闲 指针 项 来 记录 文件 描述 符 ， 代 码 
清单 14-19 是 空闲 指针 项 的 遍历 过 程 。 


代码 清单 14-19 第 14 章 \ 程 序 \ 程 序 14- 人 物理 平 台 \kernel\sys.c 


f = current->file_ struct; 
for(i = 0;i < TASK_FILE MAX;i++) 
if(f[i] == NULL) 
{ 
UG MS 
break 
} 
if(i == TASK_FILE MAX) 
{ 
kfree (filp); 


//// reclaim struct index node & struct dir_entry 
return -EMFILE; 
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flfa] ss fi 


return fd; 


此 段 程序 需要 注意 一 点 ， 在 进程 无 空闲 指针 项 时 ， 内 核 只 释放 了 文件 描述 符 占 用 的 内 存 空间 ， 而 
未 释放 inode 结 构 与 dentry 结 构 占 用 的 内 存 空 间 。 因 为 释放 它们 是 一 个 漫长 的 过 程 ,其 中 必 将 涉及 路 
径 内 所 有 结构 的 回收 、 缓 存 、 销 毁 等 管理 细节 ， 此 过 程 不 太 适 合 现 在 实现 ， 和 暂且 跳 过 。 

至 此 ，sys_open 函 数 已 基本 实现 ， 在 测试 之 前 先 纠正 一 处 逻辑 错误 。 代 码 清单 14-20 中 的 成 员 变 
量 aqgr_1limit 用 于 描述 进程 地 址 空间 范围 ， 其 原 值 0x££££800000000000 已 超越 进程 的 应 用 层 地 址 
空间 范围 ， 现 将 其 值 修正 为 0x00007fffffffffff (TASK_SIZE )。 


代码 清单 14-20 ”第 14 章 \ 程 序 \ 程 序 14- 和 物理 平台 \kernelvtask.c 
unsigned long do_execve(struct pt_regs * regs) 


if(!(current->flags & PF_KTHREAD)) 
current->adgdr_limit = TASK_ SIZE; 


由 于 在 系统 调用 模块 升级 期 间 遗 漏 了 文件 系统 的 初始 化 函数 DISK1_FaAT32_Fs_init， 那 么 在 操 
作文 件 前 必须 将 其 重新 加 入 到 系统 中 ， 代 码 清单 14-21 是 这 个 函数 的 新 调用 位 置 。 


代码 清单 14-21 第 14 章 \ 程 序 \ 程 序 14-2\ 物 理 平台 \kernel\task.c 


unsigned long init (unsigned long arg) 
{ 
struct pt_regs *regs; 
DISK1_FAT32_FS_ init(); 


最 后 ， 再 为 schedqule 函 数 加 入 中 断 的 使 能 和 禁止 功能 ， 以 防止 在 进程 调度 期 间 处 理 中 断 请 求 ， 
破坏 系统 核心 数据 。 除 此 之 外 ， 这 里 还 对 一 些 日 志 信 息 打印 代码 进行 过 调整 ,请 读者 对 比 之 前 的 程序 
自行 阅读 。 

接 下 来 ,将 进入 sys_open 函 数 的 测试 环节 。 由 于 系统 目前 并 不 具备 文件 读 取 功 能 ， 这 里 只 能 沿 
用 函数 user_level_function 进 行 测试 ， 代 码 清单 14-22 是 open 函数 的 测试 代码 。 


代码 清单 14-22 ”第 14 章 \ 程 序 \ 程 序 14-2\ 物 理 平台 \kernel\task.c 


void user_level_function() 


{ 


int errno = 0; 

char string[]="/JIOL123L1l1iwos/89AIOlejk.TXxT"; 
// call sys_open 

// int open(const char *path, int oflag); 
_asm _ volatile _ 


14.2 基于 POSIX 规范 实现 系统 调用 API 库 581 
"leagq Sysexit_return address (%$%rip), $$r10 NEN 
"movd $$rsp, $$Sr11 \n\t" 
"sysenter NTLENG" 
"sysexit_return address: \n\t" 
"Xchgd SSrdx, S$%Sr10 “n\n 
"Xchgd SEIrcx, S$%SIr11 NANEY 
"popq $$r11 Nn " 
"popq $$r10 \n\t" 
:"=a" (errno) 

:"0"( NR open),"D"(string),"S"(0) 


:"memory");} 
while(1) 


} 
代码 清单 14-22 里 的 open 函 数 与 putstring 函 数 的 代码 实现 基本 相同 ， 


(汇编 代码 的 输出 部 分 和 输入 部 分 ) 上 有 所 不 同 。 读 者 按照 寄存 髓 传 参 方式 
数 保存 到 寄存 器 中 即 可 ， 图 14-3 是 open 函 数 的 运行 效果 。 


只 是 两 者 在 参数 和 返回 值 
( 64 位 体系 结构 的 )， 将 参 
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;CHSP:0xfftt800000147e20,BS 

CHSP:0xff 


1f800000147e20, RSP: 


地 100000,end 


0xtttt8000001205tc 


tftf800000147fa8,RIP: Oxfif1800000106de0| 
tf{800000147fa8,RIP: Oxfif1800000106d+ mu 
fff800000147fa8,RIP: Oxfiff800000106de6| 
ttf1800000147fa8,RIP: Oxfiff800000106de6muuuuie 
0 RIP: Oxftff800000106dc0l 

) 


f800000134460 ,end_| 


300000147eD0, BIP: Oxitt+30000011ca2y 
ffff8000001471a8,BIP: Oxffff800000106df 
ffff800000147fa8, BIP: Oxffff80000010640| 
tftf{8000001471a8,RIP: Oxfiff1800000106dc0m 
ffff800000147fa8,BIP: Oxf+ff800000106dd1 
tfff800000147fa8,BIP: Oxftff8000001064d1 
EEE80000O TAstab RIP: Oxfiff800000106dd 1 
{fff8000001471a8,RIP: 


ff80000014cb60,end 


IO DIB Fl x0000000000000488] 
4) 


800000147e20 ,RSP :0xii+1800000147+a8 ,RIP: Oxtit1800000106di0] 


再 


图 14-3 函数 的 运行 效果 图 


open 呈 | 


根据 上 图 显示 的 信息 可 知 ， 
0x0000,0488。 

2. 文件 的 关闭 操作 

当 文 件 不 再 使 用 时 ， 进 程 应 该 调用 close 滑 数 将 其 关闭 。 通 常情 况 下 ，close 消 数 与 open 函 数 成 
对 出 现在 程序 里 ，close 函 数 功 能 是 关闭 open 函 数 打开 的 文件 ， 因 此 它 的 执行 顺序 与 open 函 数 基本 
相反 。 有 了 open 孙 数 的 开发 经 验 ， 想 必 读 者 已 经 对 这 个 函数 胸 有 成 人 狂 了 。 但 无 论 函 数 多 么 简单 ， 都 请 
读者 先 研读 POSIX 规 范 再 着 手 实现 ， 表 14-2 是 POSIX 规 范 对 close 函 数 的 概括 描述 。 


89AIOlejk.TXT 文 件 的 起 始 簇 号 为 0x000,0004， 文件 长 度 为 
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表 14-2 close 函 数 简介 表 


函数 名 int close(int fildes) 
功能 摘要 关闭 文件 描述 符 
头 文 件 #include <unistd.h> 
描述 销毁 文件 与 文件 描述 符 之 间 的 关联 ， 并 将 文件 描述 符 回收 ， 待 后 续 调 用 open 函 数 时 使 用 
参数 int fildes 代表 文件 描述 符 的 句柄 
返回 值 int 如 果 close 函 数 执行 成 功 ， 则 返回 90; 否则 返回 -1，errno 变 量 会 记录 错误 码 
错误 码 EBADF fildes 是 个 无 效 的 文件 描述 符 
EINTR 在 函数 执行 过 程 中 被 信号 打 断 
EIO 在 IO 操作 时 ， 发 生 读 写 错 误 


从 POSIX 规 范 对 close 函 数 的 描述 可 知 ，close 函 数 无 需 搜 索 目 标 路 径 名 ， 而 是 通过 修改 文件 描 
述 符 指针 来 切断 文件 与 文件 描述 符 之 间 的 映射 关系 。close 函 数 对 应 的 系统 调用 API 处 理 函 数 名 为 
sys_close， 代 码 清单 14-23 是 该 函数 的 程序 实现 ， 读 者 可 对 比 sys_open 函 数 的 执行 过 程 进 行 阅读 。 


代码 清单 14-23 ”第 14 章 \ 程 序 \ 程 序 14-3\ 物 理 平台 \kernel\sys.c 


unsigned long sys_close(int fd) 
{ 
struct file * filp = NULL; 


Color_printk (GREEN, BLACK, "sys_close:%d\n",fd); 
if(fd < 0 || fq >= TASK_FILE MAX) 
return -EBADF; 


filp = current->file_ structl[fd]; 
if (filp->f_ops && filp->f_ops->close) 
filp->f_ops->close (filp->dentry->dir_inode,filp); 


kfree (filp); 
current->file_ struct[fd] = NULL; 


return 0; 
} 
sys_close 国 数 在 切断 文件 与 文件 描述 符 的 映射 关系 之 前 会 先 验证 参数 fa 的 正确 性 , 如 果 参 数 fa 
通过 验证 ， 那 么 将 调用 文件 描述 符 的 close 操 作 方 法 (filp->f_ops->close ) 关闭 文件 。 然 后 将 文 
件 描述 符 指针 赋值 为 NULL， 以 切断 文件 与 文件 描述 符 的 映射 关系 ， 并 释放 文件 描述 符 拥 有 的 资源 。 
这 里 的 close 操 作 方 法 指向 FAT32 文 件 系 统 的 FAT32_close 子 数 ， 它 与 FAT32_open 同 为 空 函 
数 ， 。 
经 短暂 的 编程 ，close 也 数 现 已 实现 ,代码 清单 14-24 是 user_level_function 抑 数组 入 
0 


代码 清单 14-24 ”第 14 章 \ 程 序 \ 程 序 14-3\ 物 理 平台 \kernel\task.c 


void user_level_function() 


{ 


14.2 基于 POSIX 规 范 实现 系统 调用 API 库 583 


ii, S03 
char string[] 
Tint Ed = 

// register int fd asm("r15") = 0 


="/JIOL123L1liwos/89AIOlejk.TxT"; 


// call sys_open 
// int openl(const char *path, int oflag); 
_asm _ volatile _ ( "Pushd S$%r10 NAN 
sd (EELING) 
:"0"(__ NR_ open),"D"(string),"S"(0) 
: "memory " ) ; 
fd = errno; 


// call sys_close 

// int closel(int fildes); 

_asm _ volatile _ ( "pushq S$%r10 AN 
:"=a" (errno),"+D" (fd) 
:"0"(__ NR close) 
:"memory"); 

while(1) 


这 上段 程序 把 open 函 数 返回 的 文件 描述 符 句柄 保存 在 局 部 变量 Ed 内 ， 随 后 在 执行 close 孙 数 时 , 将 
局 部 变量 fa 作为 参数 传递 给 close 函 数 ， 图 14-4 是 测试 程序 的 整体 运行 效果 。 


0x0000000000000fc4=000000000000004( 


J0120800, bi 0000000104, bit 


,CESP : Ox: 和 
,cBSP: Oxf{ff800000147e20, BSP: Oxf 
RSP: Oxftf£800000147e20, RSP: Oxf 
pid:0,cBSP: Oxf{ff800000147e20, BSP: Oxf 
:0 id: 9 ,CRSP: Oxffff800000147e20, BSP: Oxf 


disk-handler’ preempt:0 d: 人 ， BOP: Oxffff800000147e20, Re: 

disk_handler ,preemp 

disk handler ,preempt: ,CR :0 
0 ED 


2 :0xffff8000001345a0,end_brk fff80000 


Tr ;Pid:0,cRSP: Oxit11800000147d30, FSP :Oxiit1800000147eb0, RIP :Oxiii180000011cavd 
nd ler, preempt:0, pid:0,cBSP: Oxfff£800000147e20,RSP: Oxfit1800000147fa8, IP: Oxffff800000106dF6| 
disk_handler,preempt:0,pid:0,cHSP:0xfttftt800000147e20,BSP:0xtttft800000147fa8,BIP:0xtftt800000106dd] 
disk-handler ,preenpt:0,pid:0,cRSP: Oxftf1800000147e20, RSP: Oxffff800000147+a8, BIP: Oxftt800000106dc0 
disk_handler ,preempt:0,pid:0,cRSP: Oxiiff800000147e20,RSP: Oxfiff800000147fa8,RIP: Oxfff800000106dd1| 
disk_handler ,preempt:0,pid:0,cRSP:0xiif1800000147e20,RSP: Oxi1f1800000147ta8,RIP: Oxtiff800000106dd 1 
disk_handler ,preemp d:0,cRSP:0xfttftt800000147e20,BSP:0xftftt800000147fa8,BIP:Oxftfttt800000106qd 
disk hand ee d:0,cHS| 0 ATe20 ea ee 

5 800000 ,© 


00001d7e20 HSP:0xtittt80000014zta8 RIP. Oxii++800000106dd] 


图 14-4 _ close 函数 的 运行 效果 图 


如 果 读 者 想 为 局 部 变量 fd 指派 通用 寄存 屁 的 话 ， 可 参照 注释 register int fd asm("r15") = 0 
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为 局 部 变量 fd 指派 通 
3. 文件 的 读 取 操作 
文件 的 读 取 操作 主要 


进行 个 性 化 定制 , 其 中 的 代码 r15 表 示 通 用 
用 寄存 器 不 会 影 


寄存 器 R15, 关键 字 register 表 示 将 变量 声明 为 寄存 器 类 型 。 
响 程 序 的 运行 效果 。 


1read 函 数 负责 完成 , 用 户 通过 该 函数 可 从 指定 文件 中 读 取 自 定义 长 度 的 数 


据 。 由 于 read 函 数 只 能 通过 文件 描述 符 句 柄 来 对 文件 进行 读 取 操作 ， 因 此 在 调用 read 函 数 前 必须 使 


jopen 函 数 获得 目标 文件 的 文件 描述 符 句 顶 ， 关 于 read 函 数 的 更 多 介绍 请 参见 表 14-3。 


表 14-3 ”read 函数 简介 表 


函数 名 ssize t read(int fildes, void *buf, size_t nbyte) 

功能 摘要 读 取 文 件 内 的 数据 

头 文件 #include <unistd.h> 

描述 从 filges 指 定 的 文件 中 读 取 nbyte 字 节 的 数据 ， 并 把 数据 保存 到 缓冲 区 buf 中 
参数 int fildes 代表 文件 描述 符 的 句柄 

void xbuf 数据 读 取 缓冲 区 
size_t nbyte 读 取 数据 长 度 

返回 值 ssize_t 如 果 读 取 成 功 ， 则 返回 实际 读 取 数 据 长 度 ( 非 负 正 整 数 ) ; 否则 返回 -1 

errno 变 量 会 记录 错误 码 

错误 码 EAGAIN 无 数据 ， 稍 后 重 试 
EBADF fildes 是 个 无 效 的 文件 描述 符 
EBADMSG 流 文件 未 收 到 消息 
EINTR 在 函数 执行 期 间 被 信号 打 断 
EINVAL 参数 无 效 
EIO 发 生 IO 错误 
EISDIR fildes 代 表 一 个 目录 项 的 文件 描述 符 
EOVERFLOW 数据 索引 起 始 位 置 大 于 等 于 文件 最 大 偏 移 值 
ECONNRESET 从 一 个 已 经 关闭 的 socket 连 接 读 取 数 据 
ENOTCONN 读 取 一 个 未 连接 的 socket 
ETIMEDOUT 读 取 socket 连 接 超 时 
ENOBUFS 系统 资源 不 足 
ENOMEM 内 存 不 足 
ENXIO 设备 文件 不 存在 


read 吨 数 对 应 的 系统 调用 API 处 理 函 数 名 为 sys_read， 从 POSIX 规 范 对 read 函 数 的 错误 码 介 绍 
中 可 以 看 出 , reaq 函 数 不 仅 可 以 操作 文件 , 还 可 以 操作 设备 等 其 他 资源 , 其 实 这 也 不 足 为 奇 , 因为 read 
函数 与 open 函 数 一 脉 相 承 ， 只 要 open 函 数 允 许 打 开设 备 ， 那 么 readq 函 数 就 可 对 设备 执行 读 取 操 作 。 


换个 角度 讲 ， 在 类 Unix 操 作 系统 下 ， 


设备 是 以 文件 方式 为 应 用 程序 提供 操作 接口 的 ， 也 就 是 说 设备 是 


一 种 特殊 的 文件 ， 因 此 read 函 数 能 够 对 设备 执行 读 取 操作 也 是 合理 的 。 
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sys_read 函 数 依然 需要 借助 文件 描述 符 句柄 来 对 文件 进行 读 取 操作 ， 它 的 程序 实现 请 参见 代码 
清单 14-25。 


代码 清单 14-25 ”第 14 章 \ 程 序 \ 程 序 14- 小 物理 平台 \kernel\sys.c 


unsigned long sys_read(int fd,void * buf,long count) 


{ 


struct file * filp = NULL; 
unsigned long ret = 0; 


Color_printk (GREEN, BLACK, "sys_read:%d\n",fd); 
if(fd < 0 || fdq >= TASK_FILE MAX) 

return -EBADF; 
二 GOT AR 0 

return -EINVAL; 


filp = current->file struct[fd]; 
if (filp->f_ops && filp->f_ops->read) 

ret = filp->f_ops->read (filp,buf,count,&filp->position); 
return ret; 


} 

这 段 代 码 的 执行 流程 与 sys_close 函 数 基本 相同 ， 区 别 在 于 调用 FAT32 文 件 系统 的 操作 方法 不 
同 ， 此 处 调用 的 函数 FAT32_read 才 是 从 FAT32 文 件 系 统 中 读 取 文件 数据 的 真正 处 理 函 数 。 如 果 在 执 
行 sys_open 函 数 期 间 ，filp->f_ops 指 向 某 个 设备 的 struct file_operations 结 构 ， 那么 此 时 的 
Filp->f_ops->read 将 指向 设备 的 数据 读 取 操 作 方 法 ( 数据 接收 操作 方法 )。 

闲 言 少 叙 ， 现 在 就 来 逐步 实现 FAT32_read 孔 数 。 在 调用 硬盘 驱动 程序 读 取 磁盘 扁 区 前 ， 目 标 
户 区 LBA 号 必须 先 确定 ， 该 值 是 通过 参数 filp 和 position 计 算 而 来 的 ， 具体 计算 过 程 请 参见 代码 
清单 14-26。 


el 


代码 清单 14-26 ”第 14 章 \ 程 序 \ 程 序 14- 小 物理 平台 \kernel\fat32.c 


long FAT32_read(struct file * filp,char * buf,unsigned long count,long * position) 
{ 
struct FAT32_inode_info * finode = filp->dentry->dir_inode->private_index_info; 
struct FAT32_sb_info * fsbi = filp->dentry->dir_inode->sb->private_sb_info; 


unsigned long cluster = finode->first cluster; 
unsigned long sector = 0; 

int i,length = 0; 

long retval = 0; 

int index = *position / fsbi->bytes_per_cluster; 


long offset = *position % fsbi->bytes_per_cluster; 
char * buffer = (char *)kmalloc (fsbi->bytes_per_cluster,0); 


if(!cluster) 
return -EFAULT; 
for(i = 0;i < index;i++) 
cluster = DISK1_FAT32_read_FAT_ Entry (fsbi,cluster); 


if(*position + count > filp->dentry->dir_inode->file size) 
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index = count = filp->dentry->dir_ inode->file size - *position; 
else 
index = count; 


Color_printk (GREEN, BLACK, "FAT32_read first_cluster:%d,size:%d,preempt_count: 
Sd\n",finode->first_cluster, filp->dentry->dir inode->file size,current->preempt_ count); 


以 上 这 段 程序 首先 取得 目标 文件 系统 和 文件 的 相关 信息 ， 然 后 计算 出 文件 当前 访问 位 置 所 在 簇 
号 ， 并 将 其 保存 在 局 部 变量 cluster 内 。 接 着 ,根据 文件 当前 访问 位 置 和 文件 长 度 分 析出 文件 剩余 
可 读 取 数据 长 度 。 如 果 长 度 小 于 参数 count，sys_readq 函 数 只 读 取 剩余 数据 长 度 ， 局 部 变量 inaex 
记录 着 实际 可 读 取 数 据 长 度 。 最 后 显示 文件 起 始 簇 导 、 文 件 长 度 等 信息 来 帮助 验证 文件 描述 符 的 数 
据 正确 性 。 

接 下 来 ， 我 们 将 借助 这 些 关键 性 信息 ， 把 文件 内 的 数据 从 硬盘 中 读 取 出 来 ， 代 码 清单 14-27 是 
FAT32_read 困 数 的 数据 读 取 过 程 。 


代码 清单 14-27 第 14 章 \ 程 序 \ 程 序 14- 小 物理 平台 \kernel\fat32.c 


do 
{ 


memset (buffer,o0,fsbi->bytes_per_cluster); 

sector = fsbi->Data_ firstsector + (cluster - 2) * fsbi->sector per_cluster; 

if(!IDE device operation.transfer (ATA READ_ CMD, sector,fsbi->sector_ per 
cluster, (unsigned char *)buffer)) 


{ 


Color_printk (RED,BLACK, "FAT32 FS(read) read disk ERRORIIIIIIIIIINn") 
retval = -EIO; 
break; 


} 


Jength = index <= fsbi->bytes_per_cluster - offset ? index : fsbi->bytes_per_ 
cluster - offset; 


if((unsigned long)buf < TASK_SIZE) 
copy_to_user (buffer + offset,buf,1length); 
else 
memcpy (buffer + offset,buf,1length); 


index -= length; 
buf += length; 
offset -= offset; 


*position += length; 
}while(index && (cluster = DISK1_ FAT32_ read_ FAT Entry (fsbi,cluster))); 


kfree(buffer); 
if(!index) 

retval = count; 
return retval; 


数据 读 取 过 程 是 通过 一 个 循环 体 实现 的 ， 只 有 当 数 据 全 部 从 硬盘 读 出 ,或 者 在 硬盘 读 取 期 间 发 4 
错误 时 ,循环 体 才 会 退出 。 这 个 循环 体 中 相对 难以 理解 的 代码 是 length = index <= fsbi->bytes_ 


PT 
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per_cluster - offset ? index : fsbi->bytes_per_cluster - offset;, 它 负 责 动 态 计 
算 每 次 从 buffezr 组 冲 区 中 复制 的 数据 长 度 ， 如 果 将 这 行 代 码 改 为 Ilength = (index <= (fsbi-> 
bytes_per_cluster - offset) ? index : (fsbi->bytes_per_cluster - offset)) ;会 更 好 理 
解 一 些 ， 其 中 的 局 部 变量 offset 在 进入 循环 体 前 已 初始 化 为 文件 当前 访问 位 置 距 它 所 在 簇 基 地 址 的 
偏 移 。 在 数据 复制 过 程 中 ， 程 序 还 会 对 目标 地 址 (参数 puf 指 向 ) 进行 检测 ， 以 保证 数据 的 安全 性 。 

随 着 循环 体 的 退出 ,程序 将 进入 最 后 检验 阶段 。 如 果 ingex 变 量 的 值 为 0， 这 说 明 数 据 已 成 功 从 文 
件 里 读 取出 来 , 随即 返回 已 读 取 数 据 长 度 ; 否则 ,说明 在 数据 读 取 过 程 中 出 现 错误 , 进而 返回 错误 人 码 。 

此 刻 ，FaAT32_read 困 数 已 经 实现 ， 为 了 验证 FAT32_ ER 在 运行 程序 前 必须 向 
目标 文件 写 人 已 知 数据 或 字符 串 waz41-8230vc+[1”:?><{1}{) (*&^gss$#@l~， 然 后 可 通过 代码 
清单 14-28 所 示 的 测试 程序 把 数据 从 文件 中 读 取 出 来 。 


代码 清单 14-28 ”第 14 章 \ 程 序 \ 程 序 14- 小 物理 平台 \kernel\task.c 


void user_level_function() 


{ 


Tt ,EEO 2 .03 
char string[]="/JIOL123L1liwos/89AIOlejk.TXxT"; 
unsigned char buf[32] = {0}; 


// call sys_open 

// int openl(const char *path, int oflag); 

// call sys_read 

// long readl(int fildes, void *buf, long nbyte); 


_asm _ volatile _ ( "pushga S$%r10 \n\t" 
:"=a" (errno),"+D" (fd) 
:"0"(__ NR read),"S" (buf),"d"(30) 
:"memory"); 


// call sys_close 

// int closel(int fildes); 

// call sys_putstring 

// int putstring(char *string); 


_asm _ volatile _ ( "Pushd S$%Sr10 NN 
Ta 
:"0"(__ NR putstring),"D" (buf) 
:"memory");} 


while(1) 


| 寺 | 
测试 程序 会 读 取 目标 文件 的 前 30 B 数 据 , 并 将 这 些 数 据 保存 在 局 部 数组 buf 中 , 随后 再 由 put string 


函数 将 数据 打印 在 屏幕 上 ， 其 运行 效果 如 图 14-5 所 示 。 
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-handler, ,Preemp bp: OH4#fed0000 1420 各 


0,pid 
ndler beat 0 .pid:0 "oe: BESO Sad RSP 00000149 上 


0x0000000000000fc4=0000000000000040 
)0000144000， )0000000000010f4,b 
)0000010f 
000， 000000000000000 0 
,CESP : Ox: 83800000147e20, RSP: Oxii+18000001471a8,h. 
,CRSP :Oxf{ff800000147e20, BSP: Oxfff{f800000147fa8,R] 
handler ,preemp ,CBSP: Oxfii{800000147e20,BSP: Oxff{{1800000147fa8,R 
handler ,preemp BSP: Oxffff800000147e20,BSP: Oxffff800000147fa8,R] 
handler ,preemp ,CRSI ， ， 
handler ,preemp ,CRSP: Ox{{ff800000147e20, BSP: Oxff{ff800000147fa8,R] 
handler Preenpt: ,CBSP: Oxfii{800000147e20,BSP: Oxf{{1800000147fa8,R: 
| ese) RSP es RIP: 
DEN: 0 _IND 


:0,cBSP: Oxtii1800000147d30, BSP : 0x: 

hand ler ,preempt:0,pid:0,cRSP: Oxfff£800000147e20, ESP: Oxf 

handler ,preempt:0,pid:0,cRSP: Oxffff800000147e20, RSP : Oxf 

sk_handler ,preempt:0,pid:0,cBSP: : 
handler,preempt:0,pid:0,cHSI 

handler,preempt:0,pid 

‘eemp pid 


andler ,preempt:0,pid 


者 :0， CE Ox 800000147d30, ESP :0xtii1800000147eb0,] 
Sk_handler ,preempt:0,pi :0xfiff800000147e20, ED: Oxfftf800000147fa8,R 
_hand ler , preempt:0,pid:0, ee: :0xftfff800000147e20,RSP:0xffff800000147fa8， 

hand ler, preempt:0,pid:0,cRSP: Oxfff£800000147e20, 才 : :Oxffff800000147fa8,B: 


andler ,preempt:0,pid 


图 14-5”read 也 数 的 运 


4. 文件 的 写 入 操作 
文件 的 写 人 操作 主要 由 write 函数 负责 实现 ， 
样 是 依靠 文件 描述 符 句 柄 来 对 文件 进 


tfff800000 

tfff800000106de6| 

tfif800000106de6muuuue 

tfff800000106de6| 

06dd lil 
co 


800000 
ft800000106dd]| 
并 人 00010d。 


300000106dc OU 
tfff800000106de0| 


106df Om: 


80000011cae]| 
f800000106dfl 
9000001oede 


加 
0 


Eh 机 


8300000106dc! 
#8000001983e| 
1800000106d16| 


行 操作 。 其 实 ，write 子 数 的 功 自 


EE 几乎 与 read 也 数 相同 ， 


两 者 的 数据 传输 方向 不 同 而 已 ， 表 14-4 是 POSIX 规 范 对 write 函数 的 整体 简介 。 


表 14-4 write 函数 简介 表 


E 整 数值 来 表示 实际 写 入 数据 长 度 ; 


函数 名 ssize t write(int fildes, const void *buf, size t nbyte) 
功能 摘要 向 文件 写 入 数据 
头 文件 #include <unistd.h> 
描述 将 数据 缓冲 区 buf 中 的 数据 写 入 到 £ilgdes 指 定 的 文件 内 ， 
参数 nb aes 代表 文件 描述 符 的 句柄 
const void xbuf 数据 写 和 人 缓冲 区 
size t nbyte 写 人 数据 长 度 
返回 值 | ssize 如 果 写 和 成 功 ， 则 
返回 -1， errno 变 量 会 加 
芽 误 码 EAGAIN ea 稍 后 重 试 
EBADF fildes 是 个 无 效 的 文件 描述 符 
EFBIG 数据 索引 起 始 位 置 大 于 等 于 文件 最 大 偏 移 值 
EINTR 在 函数 执行 期 间 被 信号 打 断 
EIO 发 生 VO 错 误 
ENOSPC 设备 存储 空间 不 足 


已 与 open 、close、 read 等 函数 出 自 同一 派系 ， 同 


只 不 过 


写 入 的 数据 长 度 为 nibyte 个 字 节 


否则 


14.2 基于 POSIX 规范 实现 系统 调用 API 库 589 


( 续 ) 
ERANGE 超出 流 文件 的 传输 容量 
ECONNRESET 写 人 一 个 未 连接 的 socket 
EWOULDBLOCK 将 一 个 socket 连 接 设 置 成 非 阻塞 模式 
EPIPE 向 一 个 已 经 关闭 的 socket 连 接 写 人 数据 
EINVAL 参数 无 效 
ENOBUFS 系统 资源 不 足 
ENXIO 设备 文件 不 存在 
EACCES 权限 不 足 
ENETDOWN 本 地 网 络 连接 处 于 关闭 状态 
ENETUNREACH 无 法 发 送 至 目标 网 络 设备 


从 表 14-4 中 可 以 分 析出 ，write 函 数 同样 能 够 操作 设备 或 其 他 以 文件 为 纽带 的 资源 ， 其 作用 是 向 
设备 或 资源 发 送 数据 。write 函 数 对 应 的 系统 调用 API 处 理 函 数 名 为 sys_write， 代 码 清单 14-29 是 函 
数 sys_write 的 代码 实现 。 如 果 将 这 段 程序 与 代码 清单 14-25 进 行 比 对 的 话 ， 就 不 难 发 现 sys_write 
函数 除了 使 用 的 文件 操作 方法 与 sys_read 函 数 不 同 外 ， 其 他 内 容 是 完全 相同 的 ， 此 代码 结构 同样 可 
套用 到 这 个 派系 的 其 他 函数 实现 中 。 


代码 清单 14-29 ”第 14 章 \ 程 序 \ 程 序 14-5\ 物 理 平台 \kernel\sys.c 


unsigned long sys_writel(int fd,void * buf,long count) 


{ 


struct file * filp = NULL; 
unsigned long ret = 0; 


Color_printk (GREEN,BLACK, "sys_write:%d\n",fd); 
if(fd < 0 || fdq >= TASK_FILE MAX) 

return -EBADF; 
Lt"(eount <.0) 

return -EINVAL; 


filp = current->file_ struct[fd]; 
if (filp->f_ops && filp->f_ops->write) 

ret = filp->f_ops->write(filp,buf,count,é&filp->position); 
return ret; 


} 
关于 sys_write 函 数 的 执行 流程 , 这 里 就 不 再 过 多 讲解 。 下 面 将 剥 开 VFS 层 的 外 党 , 深入 到 FAT32 
文件 系统 的 write 操作 方法 中 去 一 探究 竟 。 
FAT32 文 件 系 统 的 write 操作 方法 名 为 FAT32_write。 与 读 取 操 作 不 同 的 是 ， 写 人 操作 必须 先 和 
定 是 否 已 为 文件 当前 访问 位 置 分 配 存 储 扁 区 。 如 果 尚 未 分 配 ， 则 必须 先 为 其 分 配 存 储 局 区 ， 这 步 工 作 
是 在 提取 文件 系统 和 目标 文件 信息 的 过 程 中 完成 的 ， 代 码 清单 14-30 是 这 部 分 功能 的 代码 实现 片段 。 
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代码 清单 14-30 ”第 14 章 \ 程 序 \ 程 序 14-5\ 物 理 平台 \kernel\fat32.c 


long FAT32_write(struct file * filp,char * buf,unsigned long count,long * position) 
€ 
struct FAT32_inode_info * finode = filp->dentry->dir_inode->private_index_info; 
struct FAT32_sb_info * fsbi = filp->dentry->dir_ inode->sb->private_sb_info; 


unsigned long cluster = finode->first_cluster; 

unsigned long next_cluster = 0; 

unsigned long sector = 0; 

int i,length = 0; 

long retval = 0; 

long flags = 0; 

int index = *position / fsbi->bytes_per_cluster; 

long offset = *position % fsbi->bytes_per_cluster; 

char * buffer = (char *)kmalloc (fsbi->bytes_per_cluster,0); 


if(!cluster) 


{ 


cluster = FAT32_fingd available cluster (fsbi).; 
1 

I 

else 
for(i = 0;i < index;i++) 


cluster = DISK1_ FAT32_ read_ FAT Entry (fsbi,cluster); 


if(!cluster) 
{ 
kfree (buffer); 
return -ENOSPC; 
} 


if (flags) 

‘ 
finode->first_cluster = cluster; 
filp->dentry->dir_inode->sb->sb_ops->write_ inode(filp->dentry->dir_inode); 
DISK1_FAT32_write_FAT Entry (fsbi,cluster,O0x0ffffff8); 


} 


index = count; 


代码 清单 14-30 仍 然 是 以 计算 日 标 扇 区 LBA 号 为 日 的 。 如 果 文 件 的 起 始 艇 号 为 0%， 则 说 明 这 是 一 
个 空 文件 ，FAT32 文 件 系 统 会 为 目标 文件 分 配 空闲 复 ， 并 更 新 文件 描述 符 、FAT 表 项 以 及 目录 项 ( 文 
牛 起 始 艇 号 由 FAT32 文 件 系 统 的 日 录 项 保存 ) 的 相关 信息 ; 否则 就 根据 文件 当前 访问 位 置 计算 出 日 
标 簇 号 。 

这 上段 程序 中 的 FAT32_finaq_available_cluster 国 数 负责 从 FAT32 文 件 系统 中 搜索 出 空闲 复 
号 ， 具体 程序 实现 如 代码 清单 14-31 所 示 。 


代码 清单 14-31 第 14 章 \ 程 序 \ 程 序 14-5\ 物 理 平台 \kernel\fat32.c 


unsigned long FAT32_fingd available cluster(struct FAT32_sb_info * fsbi) 
{ 


14.2 基于 POSIX 规范 实现 系统 调用 API 库 591 


re oY oa 
int fat_entry; 


unsigned long sector per_ fat = fsbi->sector_ per_FAT; 
unsigned int pbuf[128]; 


// fsbi->fat_fsinfo->FSI Free Count & fsbi->fat_ fsinfo->FSI Nxt_Free not exactly,so unuse 


for(i = 0;i < sector per_fat;i++) 
{ 
memset (buf,0,512); 


IDE_device_ operation.transfer (ATA_READ_ CMD, fsbi->FAT1_ firstsector + i,1, 
(unsigned char *)buf); 


for(j = 0;j < 128;j++) 
if((buf[j] & OxOfffffff) == 0) 
Et (< 证 可 当 
} 
} 
return 0; 


} 

虽然 FSInfo 扁 区 可 为 检索 空闲 艇 号 提供 便利 ， 但 由 于 这 些 信息 仅 是 参考 值 并 不 准确 ， 所 以 
FAT32_finq_available_cluster 函 数 才 使 用 逐个 遍历 FAT 表 项 的 方法 。 有 能 力 的 读者 可 自行 实现 
FSInfo 扇 区 的 参考 检索 功能 。 

当 取得 目标 篮 号 以 后 ， 便 可 开始 数据 写 人 工作， 这 项 工作 同样 采用 循环 体 实 现 。 当 数据 全 部 写 和 人 
到 硬盘 ， 或 者 文件 系统 已 满 ， 亦 或 者 在 硬盘 写 和 期间 出 错时 ， 循 环 体 才 会 退出 ,代码 清单 14-32 和 代码 
清单 14-33 是 这 个 循环 体 的 完整 实现 。 


代码 清单 14-32 ”第 14 章 \ 程 序 \ 程 序 14-5\ 物 理 平台 \kernel\fat32.c 


do 
{ 
if(!flags) 
{ 
memset (buffer,0,fsbi->bytes_per_cluster); 
sector = fsbi->Data_firstsector + (cluster - 2) * fsbi->sector per_cluster; 
if(!IDE device_ operation.transfer (ATA READ CMD, sector,fsbi->sector_ per_ 
cluster, (unsigned char *)buffer)) 


{ 


Color_printk (RED,BLACK, "FAT32 FS(write) read disk ERROR!I!I!I!IIIIIII\N"); 
retval = -EIO; 
break; 


} 


length = index <= fsbi->bytes_per cluster - offset ? index : 
fspi->bytes_per_cluster - offset; 


if((unsigned long)buf < TASK_SIZE) 
Copy_from user (buf,buffer + offset,1length); 
else 


memcpy (buf,buffer + offset,1length); 
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if(!IDE device operation.transfer (ATA WRITE_ CMD, sector,fsbi->sector per 
cluster, (unsigned char *)buffer)) 

t 
Color_printk (RED,BLACK, "FAT32 FS(write) write disk ERRORIIIIIIIILIINn" ) ， 
retval = -EIO; 
break; 


} 


index -= length; 

buf += length; 
offset -= offset; 
*position += length; 


这 段 代 码 中 的 flags 变 量 用 于 标记 当前 复 的 操作 状态 为 已 使 用 还 是 新 分 配 。 对 于 已 使 用 的 复 ， 必 
须 先 将 复数 据 从 文件 系统 中 读 取出 来 ， 再 将 写 人 数据 覆盖 到 读 取 缓存 区 中 ; 如 果 复 是 新 分 配 的 ， 那 么 
只 和 需 将 数据 写 和 人 到 缓冲 区 中 即 可 。 无 论 当前 簇 是 已 使 用 的 ， 还 是 新 分 配 的 ， 最 后 都 必须 把 数据 回 写 到 
目标 复 中 ， 数 据 的 回 写 工作 由 代码 清单 14-33 完 成 。 


代码 清单 14-33 ”第 14 章 \ 程 序 \ 程 序 14-5\ 物 理 平台 \kernel\fat32.c 


if (index) 
next_cluster = DISK1_FAT32_read_ FAT _ Entry (fsbi,cluster); 


else 
break; 


if(next_cluster >= 0x0ffffff8) 
( 
next_cluster = FAT32_fingd available cluster (fsbi); 
if(!'next_cluster) 
{ 
kfree (buffer); 
return -ENOSPC; 
} 


DISK1_FAT32_write_FAT Entry (fsbi,cluster,next_cluster); 
DISK1_FAT32_write_FAT Entry (fsbi,next_cluster, Ox0ffffff8); 
cluster = next_cluster; 

fds Ly 


} 


}while(index); 


if(*position > filp->dentry->dir_ inode->file size) 

{ 
filp->dentry->dir_inode->file_ _ size = *position; 
filp->dentry->dir_inode->sb->sb_ops->write_ inode (filp->dentry->dir_inode); 


} 


kfree (buffer); 
if(!index) 
retval = count; 
return retval; 


新 簇 的 分 配 时 机 共有 两 个 : 一 个 是 待 写 入 文件 为 空 文件 时 ，FAT32 文 件 系统 会 为 其 分 配 新 徐 ， 并 


下 


14.2 基于 POSIX 规 范 实 现 系 统 调用 API 库 593 


将 这 个 簇 作为 文件 的 起 始 徐 ; 另 一 个 是 向 文件 追加 数据 期 间 ， 文 件 需要 扩充 容量 时 ，FATI32 文 件 系统 
会 为 其 分 配 新 徐 ， 并 将 这 个 入 加 入 到 文件 的 FAT 表 项 链 中 。 当 数据 写 入 工作 完成 后 ， 还 应 该 检验 本 次 
数据 写 入 操作 是 否 会 影响 文件 的 长 度 ， 如 果 影 响 ， 那 么 就 调整 文件 的 长 度 并 更 新 文件 目录 项 。 

最 后 ， 对 数据 写 人 操作 进行 验证 。 如 果 在 数据 写 和 人 期间 出 现 错误 ， 则 返回 错误 码 。 否 则 返回 已 写 
入 数据 长 度 。 


一 点 思考 ”在 函数 FAT32_write 的 执行 过 程 中 ， 可 能 会 发 生 多 次 该 区 读 写 操作 ， 这 种 现象 主要 是 由 
FAT 类 文件 系统 对 文件 的 链 式 组 织 结构 (FAT 表 的 链 式 索引 结构 ) 导致 的 ，FAT 类 文件 系 
统 必须 经 过 多 次 磁盘 访问 操作 才能 搜索 到 目标 该 区 ， 而 如 果 使 用 位 图 映射 或 者 其 他 更 直 
接 的 索引 方法 ， 也 许 文 件 系 统 的 访问 速度 和 数据 吞吐 量 会 提高 。 


随 着 系统 调用 API 的 逐渐 增多 ， 应 用 层 的 测试 程序 也 变 得 功能 丰富 起 来 。 为 了 降低 测试 工作 的 难 
度 和 复杂 度 、 提 高 测试 程序 的 覆盖 范围 ， 代 码 清单 14-34 使 用 多 种 系统 调用 API 来 为 write 函数 编写 测 
试 代 码 。 
代码 清单 14-34 第 14 章 \ 程 序 \ 程 序 14-5\ 物 理 平台 \kernel\task.c 


void user_level_function() 


// call sys_open 

// int openl(const char *path, int oflag); 

// call sys_write 

// long write(int fildes, const void *pbuf, long nbyte); 
:"=a" (errno),"+D" (fd) 
:"0"(_ NR write),"S"(string),"d" (20) 
:"memory"); 

// call sys_close 

// int closel(int fildes); 

// call sys_open 

// int openl(const char *path, int oflag); 

// call sys_read 

// long readl(int fildes, void *pbuf, long nbyte); 


:"=a" (errno),"+D" (fqd) 
OV (NR redd)y "Ss(But}y "a C30) 
:"memory");} 
// call sys_close 
// int closel(int fildes); 
// call sys_putstring 
// int putstring (char *string); 
:"=a" (errno) 
eu OL NR Putetsindg) LD (Bur 


:"memory"); 
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代码 清单 14-34 先 使 用 write 函数 向 文件 写 人 20B 数 据 ， 


接着 通过 putstring 困 数 将 数据 打印 出 来 ， 以 验证 write 函数 的 数据 写 人 功 舟 


\ 一 一 人 | 
运行 效果 。 


disk_handler,preempt:0,pid:0,cHSP:0xffff800000147e20,BSP:0xfftf800000147fag,BI] ffff800000106dd]| 
sk- handler ,preenmp 0 中 0， < 0 BSP:0xftftft800000147fa8,B 


bandler 


tfff800000106dd1| 
0000147e20 BSP : 0xf1ff800000147fa8 ,RIP: Be 和 80000010841 昌 ,Pr 


300000141eb0, RIP: Oxiii180000011cp79| 

20 ,BSP : Ox{{{1800000147?a8,R] tfff800000106df6| 
,了 Oxiii1800000147e20, BSP: Oxfftf800000147fa8,R i11800000106de 0 
:0,cRSP: Oxtfff800000147e20, BSP: 0xf{{1800000147fa8,R] 革 tt800000106de6 四 由 


S| er ,preemp 
disk_handler ,preemp d:0,cRSP: Oxffff800000147e20,RSP: Oxffff800000147fa8,R: ffff800000106dc0| 
disk_handler ,preempt: ,CRSP: Oxft14800000147e20, ESP: Oxf{{18000001471a8, 了 ttf800000106dc0| 
disk_handler,preempt:0,pid:0,cHSP:0xffff800000147e20,BSP:0xffttf800000147fag， ffff800000106dc0| 


disk handl 


0 .pid:0cRSP:0xffff800000147e20 ,RSP OE 中 tfff800000106df 人 9 


nished.11e60000( 00000001 


0x0000000000000fc4=000000000000004036 
)1014 ,bits h: 0x0000000000000220 
ength: 0x00000000000: 


hb: 0 


tfff800000106df6| 

,CBS] ,BSP 11800000106dd 1 uu 
,CBSP: Oxffff800000147e20, BSP: Oxfff1800000147fa8B ff1800000106dd1 

cBSP: Oxffff800000147e20, BSP: Oxffff800000147fa8, 1800000106d 6 
chSP: Oxftff800000147e20, BSPp: Oxffff800000147fa8,B Eg00000! Oey 
0 
| f 


1800000106dc Ol 
RSE:0xffff800000147820， 和 


:0 
:0 
:0 
:0， 
:0 


1800000106dd1 


dcb60,e 


:0， ji 0xittt800000147d30， 


8， 
xf {ff800000147fa8,B 
xff{{800000147fa8,R] 上 
xf {ff800000147fa8,B tfff800000106dd1| 
:0xfff{f800000147fa8,R ttf800000106d+6 
,CRSP: Ox{{f1800000147e20,BSP: Oxff{f{1800000147fa8, tff800000106de6 
er 0xffff800000147e20 ,RSP:0xffff800000147fa8 ,TH fift800000106df6 风 
c++ ti800000 ) ,end_brk tff80000014cb60,e 
DIE S 0000000000000; 
DIB 000000000000023| 


下 


xtiii8 41d30, ESP 300000147eb0, RIP: Oxiiit80000011cbz9| 

RSP : Ox{{ff800000147e20, BSP E800000147a8， B] tfff800000106dd1| 
Oxfif1800000147e20, BSP: Oxfftf800000147fa8,R fff800000106dd1| 
:Oxffff800000147e20, BSP: Oxffff800000147fa8 ,BI tfff800000106df6| 

:0， EE: Oxfiff800000147e20, BSP: Oxfiif8000001471a8,R ffff800000106dc0| 


图 14-6 write 了 国 数 的 运行 效果 图 


5. 文件 的 位 置 索引 操作 
文件 位 置 索引 操作 的 函数 为 1seek， 其 同样 与 open 、wzite 等 函数 派生 自 同一 系列 。1seek 函 数 


再 调用 read 函 数 从 文件 中 读 取 30 B 数 据 ， 


EE， 图 14-6 是 测试 程序 的 


| uct:0| 


用 于 调整 或 查询 文件 的 访问 位 置 ， 表 14-5 是 POSIX 规 范 对 它 的 大 致 描述 。 其 中 的 参数 whence 负 责 指定 
索引 位 置 的 基地 址 ( 起 始 位 置 、 当 前 位 置 、 末 尾 位 置 )， 根 据 基地 址 和 参数 offset 提 供 的 偏 移 量 (有 


符号 整数 ) 就 可 计算 出 文件 的 访问 位 置 。 


功能 摘要 
头 文件 
描述 


表 14-5 lseek 函 数 简介 表 


off t lseek(int fildes, off t offset, int whence) 


设置 文件 的 当前 访问 位 置 


#include <unistd.h> 


参数 whence ( 基地 址 ) 和 


没 置 文件 描述 符 的 访问 位 置 ， 参 数 filaes 指 定 文件 描述 符 ， 访 问 位 置 

offset ( 偏 移 量 ) 组 合 而 成 

int fildes 代表 文件 描述 符 的 句柄 

off_t offset 访问 位 置 的 偏 移 量 

int whence 访问 位 置 的 基地 址 ， 相 关 宏 定义 如 下 
SEEK SET 文 伯 
SEEK_ CUR 文 伯 
SEEK END 文 伯 


F 的 起 始 位 置 
F 的 当前 位 置 
F 的 末尾 位 置 
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返回 值 th 

错误 码 EBADF 
EINVAL 
EOVERFLOW 
ESPIPE 


量 的 完整 定义 。 


( 续 ) 


如 果 设 置 成 功 ， 则 返回 距 文件 起 始 位 置 的 
偏 移 量 ; 否则 不 改变 访问 位 置 并 返回 -1， 


errno 变 量 会 记录 错误 码 


fildes 是 个 无 效 的 文件 描述 符 


在 函数 执行 期 间 被 信号 打 
访问 位 置 不 正确 
fildes 代 表 的 是 一 个 管道 、 
连接 


遵照 POSIX 规 范 ， 在 实现 1seek 函 数 前 需要 为 whence 参 数 定义 一 套 宏 常量 ， 代 码 清单 14-35 是 这 
党 


本 


FIFO 或 socket 


代码 清单 14-35 ”第 14 章 \ 程 序 \ 程 序 14-6\ 物 理 平台 \kernel\stdio.h 


define SEEK_SET 0 
define SEERK. CUR 1 
define SEEK_END 2 
define SEEK_MAX 3 


/* Seek relative to start-of-file */ 
/* Seek relative to current position */ 
/* Seek relative to end-of-file */ 


1seek 国 数 对 应 的 系统 调用 API 处 理 函 数 名 为 svs_lseek 它 同样 可 套用 svs_close、sys_write 
等 函数 的 代码 框架 , 但 由 于 其 参数 相对 独特 ， 套 用 过 程 不 要 忘记 调整 参数 的 检测 代码 ， 代 码 清单 14-36 


是 lseek 函 数 的 程序 实现 。 


代码 清单 14-36 ”第 14 章 \ 程 序 \ 程 序 14-6\ 物 理 平 


台 \kernel\sys.c 


unsigned long sys_lseek(int filds,long offset,int whence) 


{ 


unsigned long ret = 0; 


return -EBADF; 


return -EINVAL; 


Color_printk (GREEN, BLACK, "sys_lseek:%d\n" 
| filds >= TASK_FILE MAX) 


struct file * filp = NULL; 


if(whence < 0 | whence >= SEEK_MAX) 


filp = current->file struct[filds]; 
if (filp->f_ops && filp- 


>f_ops->lseek) 


,filds); 


ret = filp->f_ops->lseek (filp,offset,whence); 


return ret; 


} 

如 果 握 弃 以 上 结构 化 的 代码 框 
文件 访问 位 置 是 文件 描述 符 的 一 个 
际 存在 于 文件 系统 中 的 物理 结构 。 


J 


识 
成 


因此 ， 我 们 不 必 为 每 昼 


， 那 就 只 剩 下 调用 文件 系统 的 1seek 操 作 方法 。 其 实 ， 当 前 
员 变 量 ， 它 是 VFS 对 使 用 中 的 文件 的 一 种 抽象 描述 ， 而 非 实 


次 文件 系统 都 实现 1seek 操 作 方 法 ， 直 接 


在 函数 sys_lseek 里 统一 实现 即 可 ， 待 到 必要 时 再 去 调用 文件 系统 的 具体 操作 方法 ， 参 考 伪 代码 


如 代码 清单 14-37。 
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代码 清单 14-37 sys_lseek 函 数 的 示例 代码 


func = default_lseek; 

if (filp->f_ops && filp->f_ops->lseek) 
func = filp->f_ops->lseek; 

ret = func(filp,offset,whence); 


为 了 保持 代码 结构 上 的 工整 ， 此 处 依然 会 为 FAT32 文 件 系 统 实现 1seek 操 作 方 法 ， 其 函数 名 为 
FAT32_1lseek， 代码 清 单 14-38 是 它 的 程序 实现 。 


代码 清单 14-38 ”第 14 章 \ 程 序 \ 程 序 14-6\ 物 理 平台 \kernel\fat32.c 


long FAT32_lseek(struct file * filp,long offset,1long origin) 


{ 


struct index_ node 


long pos 


EC 


switch (origin) 


{ 


Case 


Case 


Case 


SEE 


brea 
SEE 


brea 
SEE 


brea 


default: 


} 


brea 


K_SET: 


K; 
KCUR:; 


Kj 
K_END: 


Kj; 


Kj; 


*inode = filp->dentry->dir_inode; 


pos = offset; 


pos = filp->position + offset; 


pos = filp->dentry->dir_inode->file size + offset; 


return -EINVAL; 


if(pos < 0 || pos > filp->dentry->dir_inode->file size) 
return -EOVERFLOW; 


filp->position = pos; 
Color_printk (GREEN, BLACK, "FAT32 FS(lseek) alert position:%d\n",filp->position); 


return p 


} 


OS; 


这 上段 程序 先 将 访问 位 置 的 计算 结果 保存 在 局 部 变量 pos 中 ， 随 后 再 对 变量 pos 进 行 数值 检验 。 如 


果 其 数值 不 在 文件 长 度 范围 内 , 忆 


前 访问 位 置 并 返回 该 值 。 


Bb 么 认为 设置 的 数值 有 误 ， 返回 错误 码 。 否 则 ， 更 新 文件 描述 符 的 当 


随 着 1seek 函 数 的 实现 ， 下 下 


| 将 进入 1seek 函 数 的 测试 阶段 。 为 了 增加 测试 程序 的 覆盖 范围 


， 特 


T 
ey 


将 目前 已 实现 的 所 有 系统 调用 API 融 合 到 一 个 测试 程序 内 ， 代 码 清单 14-39 是 测试 程序 的 关键 代码 。 
代码 清单 14-39 ”第 14 章 \ 程 序 \ 程 序 14-6\ 物 理 平台 \kernel\task.c 


void user_level_function() 


// call sys_open 
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// int openl(const char *path, int oflag); 

// call sys_read 

// long readl(int fildes, void *buf, long nbyte); 
:ea (errno)ky."+D" (fd) 
sO ( NR reaqd) "Ss" (bu Lad, (LO) 
:"memory"); 

// call sys_putstring 

// int putstring (char *string); 


:"=a" (errno) 
:"0"(__ NR putstring),"D" (buf) 
:"memory"); 


// call sys_write 

// long write(int fildes, const void *pbuf, long nbyte); 
"a Crrno}k,. "+D" (td) 
:"0"(_ NR write),"S"(string),"d" (20) 
: "memory"); 

// call sys_lseek 

// long lseek(int fildes, long offset, int whence); 
:aa (errno), TD (fd) 
:"0"(__ NR lseek),"S"(5),"d" (SEEK_SET) 
: "memory"); 

// call sys_read 

// long readl(int fildes, void *buf, long nbyte); 
:"=a" (errno),"+D" (fd) 
:"0"(__ NR read),"S"(buf),"d" (20) 
: "memory"); 

A CHL SYS SlO8e 

// int closel(int fildes); 

// call sys_putstring 

// int putstring(char *string); 


:"=a" (errno) 
:"0"(__ NR putstring),"D" (buf) 
:"memory"); 


测试 程序 的 大 致意 思 是 先 从 目标 文件 中 读 取 数据 并 作为 比 对 的 原 数据 显示 在 屏幕 上 ， 然 后 再 向 
文件 中 写 人 数据 ,接着 将 文件 访问 位 置 调整 至 距 文 件 起 始 位 置 5 B 处 , 并 从 此 处 读 取 数据 打印 在 屏幕 4 
上 ， 以 供 比 对 原 数 据 使 用 。 本 次 目标 文件 的 初始 值 依然 为 waz41-8230ver[1":?><{1}1{) 
(x*&^gss#G@l~， 图 14-7 是 测试 程序 的 运行 效果 。 
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现 问 


disk_handler,preenpt: 0 DIg: 0 0, CD Oxffff800000147e20,BSP: Oxffff800000147fa8, "Rb: Oxffff800000106de| 


disk_handler, preenmpt: 
disk_handler ?Dreampt 
disk handl 


handler ,preempt:0 


-handler,preempt:0 
-amdjer， ,Preenpt 


000000000000004 


sk_handler ,preempt: pi 
disk_handler ,preempt:0,pi 


disk_handler, preempt:0,pid:0,cRSP: Oxfff1800000147e20,RSP: 0xfif1800000147fa8,RIP: Oxf 


图 14-7 ”1seek 国 数 的 运行 效果 攻 


出错， 并 未 达到 预期 效果 。 系 
段 user_level_function 卫 数 的 反 汇 编 代码 : 


从 图 14-7 可 以 看 出 ， 测 试 程序 执行 


P: Oxffff800000147e20, BSP : Oxf{f1800000147f. 


9000 ， 


P:0x{{ft800000106do0| 


xtfff800000147fa8,BIP: Oxfff£800000106dd 1 
ffff800000147fa8,RIP:0xffff800000106d9 


300000142d3 


:0,cRSP : Ox: 800 
0,cBSP: 和 0000011 eb: 00000014 和 2 由 000010800 
0,cRSP: Oxff{ff800000147e20,BSP: Oxf{{f{f{8000001471a8, BIP: 0xfttt800000106qd]| 


DIB Fl 


0,cRSP: Oxiiti800000147d30, BSP: Oxiii1800000147en0, BIP: Oxiiit80000011cbp1 
0,cRSP:0xftftt800000147e20,BSP:Oxffttt800000147fa8,BIP:Oxfftftt800000106dc 


:0,cRSP: Oxf{{f800000147e20,BSP: Oxf{{{800000147fa8,RIP: Oxff- 


题 出 在 测试 程序 中 ， 请 看 下 面 这 

ffff800000112dq38 <user_level_function>: 
ffff800000112Qa38 : 5 push 
ffff800000112Q39 : 48 89 e5 IOV 
Ffff800000112gd3c: S53 push 
Ffff800000112gd3d: c7 45 e8 00 00 00 00 movil 
ffff800000112Q44: C7 AB G02E da MO dE movil 
Ffff800000112gd4b: CI AS"G4 4G 31 32733 movil 
Ffff800000T12952. Gr M49 G8 4G 6 6G 69 movl 
ffff800000112Q59 : GS GE 7 EE movl 
ffff800000112Q60 : G7 45 00 B38 339“ 二 :49 movil 
ffff800000112Q67 : S740. ME -60 .65 64 movil 
ffff800000112aQa6e : c7 45 d8 6b 2e 54 58 movil 
ffff800000112Q75 : 66 “ey WE de S400 IOVW 
ffff800000112Q7b : 48 c7 45 a0 00 00 00 ImOVG 
ffff800000112Q82 : 00 

ffff800000112Q83 : 48 c7 45 a8 00 00 00 moVdG 
ffff800000112Q8a: 00 

ffff800000112Q8b : 48 c7 45 b0 00 00 00 IOVG 
fff800000TL12092. 00 

ffff800000112Q93 : 48 c7 45 b8 00 00 00 ImOVG 
Ffff800000T12g9a: 00 

ffff800000112Q9b : c7 45 ec 00 00 00 00 movil 
ffff800000112aa2 : b8 02 00 00 00 IOV 
ffff800000112aa7 : 48 8d 55 c0 lea 
Ffff800000112dab: b9 00 00 00 00 mov 
Ffff800000112gdb0: 48."89-.97 IOV 


条 过 大 量 测试 和 代码 分 析 ， 最 终 发 


$rbp 

Srsp, Srbp 

Srbx 

SO0x0, -0x18 (Srbp) 

SOx4f494a2f,—-0x40 (Srbp) 

SO0x3332314c,-0x3c (Srbp) 

SOx696c6c4c, -0x38 (%$rbp) 

SOx2£f736f£f77,-0x34 (%$rbp) 

SOx49413938,-0x30 (%$rbp) 

SOx6a656c4f,-0x2c (%$rbp) 
(S$rbp) 


$0x58542e6b, -0x28 
$0x54, -0x24 (Srbp) 
$0x0, -0x60 (S$rbp) 


$0x0, -0x58 (S$rbp) 


$0x0, -0x50 (S$rbp) 


SOx0, -0x48 (Srbp) 
SOx0, -0x14 (%rbp) 
$0Ox2, Seax 
-0x40 (S$rbp) ,Srdx 
$0Ox0, Secx 
Srdx, Srdi 
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,Sr10 


ffff800000112qb3 : 89 ce mov Secx, Sesi 

ffff800000112gdb5: 41 ‘52 push gsr10 

ffff800000112dqb7 : A B53 push Sr11 

ffff800000112gdb9: 4c 8d 15 05 00 00 00 lea 0x5 (S$rip) 
fff800000112dqc5 <sysexit_return address0> 

ffff800000112gdc0: 49 89 e3 ImOV Srsp, Sr11 

ffff800000112dc3: 日 二 3 法 sysenter 

Ffff800000112dc5 <sysexit_return address0>: 

E 800000112gdc5: 49 87 gd2 xchg Srdx, Sr10 

最 800000112dc8: 49. 87 Cb xchg Srcx, Sr1ll1 

800000112gdcp: 41 5b pop gr11 

ffff800000112gdcd: 41 5a pop gsr10 

FE 一 看 ， 这 段 反 汇编 代码 并 无 问题 ， 各 系统 调用 API 和 人 口 程序 均 已 安然 地 内 能 在 其 中 。 可 是 ， 由 


于 测试 函数 user_level_function 完 全 使 
间 后 ， 未 兽 调 整 过 栈 指针 寄存 器 RSP 的 数值 。 当 执行 
从 而 造成 局 部 变量 数据 不 正确 。 解 决 这 个 问 
男 一 种 是 调整 栈 指针 寄存 器 RSP。 显 然 第 二 种 方法 
$0x100，%s$rsp \n\t" 插 入 到 open 也 数 的 第 一 行内 棣 汇编 语句 中 


注 


个 o 


disk_handler,preempt:0,pid: 4 cBSP:0xffff800000147e20， 0 BIP:0xffff800000106dc 
disk_handler,preempt:0,pidq:0,cHSP:0xfftftf800000147e20,BSP:0xfftt80000014 :0 
disk_handler ,preempt p: :Oxf fg00000 2030 如 

isk_handler preenpt 


800000147eb0,BIP:0xtttt8b09001lcbbg 


P: P:0xffff800000106dd1 
:Oxf{f£800000147e20,BSP: Oxffff800000147fa8,BIP: Oxffff800000106df 人 
P: Oxffff800000147e20, BSP: Oxffff800000147fa8,RIP: Oxf{fff800000106dc0| 
:Oxffff800000147e20,RSP: Oxffff800000147fa8,RIP: Oxffff800000106df| 
xffff800000147e20, RSP : 0xffff800000147fa8 BIP: Oxffff800000106dc0| 
:Ox0000000000001014, bi th: 0x00000000000002; 
00000010: 0000000002a62 
:0xittt800000147d30,RSP : Ox: 800000147eb0, BIP : Ox: 800000110b bg 
RSP: Oxffff800000147e20, RSP: Oxffff800000147fa8, BIP:0; Oxff{f800000106deo 00000,p 
tfff£800000147e20, BSP: Oxff{18000001471a8,BIP: Oxffff800000106ded| 
x{fff800000147e20,BSP: Oxf{{f1800000147fa8,BIP: Oxfif1800000106d16 a 
xffff800000147e20,BSP: Oxffff800000147fa8,RIP:Oxffff800000106de0| 
xffff800000147e20,BSP: Oxffff800000147fa8,RIP: Oxffff800000106df Om 
:Oxffff800000147e20, RSP:0xfft1800000147fa8,RIP: Oxffff800000106dd1| 
:Oxff11800000147e20,BSP: Oxfff1800000147fa8,BIP: Oxffff800000106dd 1 
P Oe RBS] see ,RIP: Oxffff3800000106dd1| 
) \ 


d_br| 


Oxtii180000011cbb9l 
:0xffff800000106dc0| 
xffff80000011cbb9| 
xtfff800000106di6I 
:0xffff800000106de| 

IP :Oxffff800000106dc Om se 
IP :Oxffff800000106df 6 
:0x a0O0 O01 edo 
xftf1800000106d+6W 
:03000001983 | 


fff80000013 )xffff80000014cb60,e 


reempt 83800000147eb0, RIP: 


nt : 08 es Ox: 


000000000000002 当 


x 0000014 1 30,BSP:0xffifit800000147eb0,BIP:0xtttt80000011cbbg 

CHSP:0xffftf800000147e20,BSP:0xftft800000147fa8,BIP:Oxfftfft800000106dca0l 
,BP: Oxff11800000147e20, BSP: Oxffff800000147fa8,BIP: Oxffff800000106dd]| 
scRSP: Oxfff£800000147e20, RSP: Oxff18000001471a8, BIP :Oxfi118000001064d1 


图 14-8 ”1seek 函 数 的 运行 效果 图 2 


er,preempt 
ndler ,preempt : 
EE handler,preempt:0 了 


14.2.4 ”进程 创建 的 系统 调用 API 实现 


内 髓 汇编 代码 实现 ， 以 至 于 函数 在 开辟 
上 /入 栈 操作 时 ， 数 据 会 覆盖 局 部 变量 存储 空 
题 有 两 种 方法 ， 一 种 是 删除 R10、R11 寄 存 器 出 /和 人 栈 操作 ， 
更 为 妥当 ， 那 么 请 
图 14-8 才 是 测试 程序 


局 部 变量 存储 空 
3 间 ， 


读者 将 汇编 代码 "sup 
的 预期 运行 


基础 文件 操作 的 系统 调用 API 的 实现 ， 将 意味 着 本 操作 系统 已 初步 具 
节 不 单单 要 实现 进程 创建 接口 〈 系 统 调用 API )， 还 要 创建 出 可 执行 的 二 进 制 程序 文件 。 


备 操作 文件 的 能 力 ， 因 此 本 


POSIX 规 范 共 
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提供 了 两 个 进程 创建 函数 fork 和 vfork， 它 们 的 区 别 想必 读者 早 有 和 耳闻。 由 fork 函 数 创 建 出 的 进程 
会 复制 父 进程 的 全 部 信息 ， 它 可 以 独立 运行 ;而 vfork 函 数 仅 会 复制 父 进程 的 主要 内 容 ， 其 他 内 容 则 
与 父 进程 共享 , 它 无 法 独立 运行 , 常常 与 exec 类 函数 联合 使 用 , 新 dd td nk et 
但 为 了 兼容 性 考虑 Linux 内 核 仍 提 供 vfork 函 数 的 功能 ， 表 14-6 是 POSIX 规 范 对 这 两 个 函数 的 介 


表 14-6 ”fork/vfork 函 数 简介 表 


函数 名 pid t fork(void) / pid t vfork(void) 
功能 摘要 创建 一 个 进程 
头 文件 #include <unistd.h> 
描述 fork 消 数 会 为 父 进程 ( 当前 进程 ) 创建 一 个 子 进程 ， 这 个 子 进程 将 复制 父 进 程 的 绝 大 部 分 内 容 ， 


当 fork 函 数 执行 后 ， 父 / 子 进程 均 可 独立 运行 ; 而 vfork 函 数 则 略 有 不 同 ， 它 与 父 进程 共享 着 地 
址 空间 ， 当 vfork 函 数 执行 后 ， 子 进程 无 法 独立 运行 ， 必 须 与 exec 类 函数 联合 使 用 


参数 无 无 
返回 值 Diq 上 如 果 执 行 成 功 ， 子 进程 返回 0， 父 进程 返回 子 进程 的 ID 号 ; 否则 不 创建 子 进 
程 并 返回 -1，errno 变 量 会 记录 错误 码 
错误 码 EAGAIN 缺少 资源 ， 稍 后 重 试 
ENOMEM 内 存 不 足 


尽管 POSIX 规 范 对 这 两 个 函数 的 描述 并 不 多 ， 但 实现 它们 却 必 须 对 进程 管理 单元 模块 进行 大 规模 
升级 、 改 造 和 完善 。 这 是 一 项 庞大 的 工程 ， 鉴 于 新 增 和 修改 的 代码 量 相对 较 多 ， 下 面 将 其 拆 分 为 几 个 
阶段 进行 讲解 。 为 了 便于 理 清 程序 设计 思路 ， 还 请 读者 使 用 代码 比较 工具 与 早期 程序 对 比 阅 读 。 
@ 准备 工作 
进程 ID 号 是 进程 的 唯一 标识 ， 它 位 于 PCB 内 。 在 此 前 的 工程 中 ， 进程 ID 号 的 赋值 代码 为 
tsk->pidq++， 在 庞大 的 树 状 进程 分 支 结 构 下 ， 这 种 赋值 方式 已 经 无 法 保证 进程 ID 号 的 唯一 性 ， 因 此 
现在 改 用 全 局 变量 long global_pid 来 唯一 标识 一 个 进程 。 

当 进 程 ID 号 能 够 唯一 标识 一 个 进程 后 ， 搜 索 目 标 进程 将 变 得 可 行 。 最 简单 的 搜索 方法 是 以 单 向 链 
表 结构 将 全 部 进程 链接 起 来 ， 再 沿 着 链表 逐一 比 对 进程 ID 号 ， 程 序 实现 如 代码 清单 14-40 所 示 。 


代码 清单 14-40 ”第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \kernelvtask.c 


long global_pidgd; 


struct task_struct *get_ task (long Pid) 
{ 
struct task_struct *tsk = NULL; 
for(tsk = init_ task union.task.next;tsk != &init task union.task;tsk = tsk->next) 
让 
if(tsk->pid == pigd) 
return tsk; 
} 
return NULL; 
} 


全 局 变量 global_pid 初 始 化 于 内 核 主 程序 Start_Kernel 的 起 始 处 ， 初 始 值 为 1。 当 内 核 主 程 


en 
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执行 完毕 ， 便 可 向 函数 get_task 传 人 待 搜索 的 进程 ID 号 来 查找 目标 进程 。 如 果 目 标 进程 存在 ， 那 么 
返回 目标 进程 的 控制 结构 体 ， 否 则 返回 NULL。 

从 get_task 函 数 中 不 难看 出 ， 它 是 通过 逐个 遍历 PCB 去 搜索 与 参数 pig 相 匹配 的 进程 。 在 匹配 过 
程 中 PCB 的 成 员 变量 next 会 使 用 到 ， 这 是 一 个 指针 变量 ， 指 向 下 一 个 进程 的 进程 控制 结构 体 ， 它 是 为 
了 将 进程 链接 起 来 而 新 引入 的 成 员 变量 ， 代 码 清单 14-4 


代码 清单 14-41 第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \kernelvtask.h 


struct task_struct 


1 是 其 在 PCB 中 的 位 置 。 


struct file * file struct[TASK_ FILE MAX]; 
struct task_struct *next; 
struct task_struct *parent; 


J 


此 处 为 struct task_struct 结 构 体 新 加 入 两 个 成 员 变 量 ,， 它 们 同 为 指针 ，next 指 针 用 于 连接 


所 有 进程 ， 而 parent 指 针 则 用 于 记录 当前 进程 的 父 进 各 


十 o 


口 


既然 struct task_struct 结 构 体 已 被 修改 ,那么 宏 函 数 INIT_TASK 也 必须 做 出 相应 的 调整 ， 代 
码 清单 14-42 是 调整 后 的 样子 。 


代码 清单 14-42 ”第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \kernelvtask.h 


#define INIT_TASK (tsk) 本 


“File struct ES 区 035 \ 
.next = &tsk, \ 
.parent = &tsk, \ 


iaqle 进 程 作为 操作 系统 的 第 一 个 进程 ， 它 没有 父 进程 ， 因 此 宏 函 数 INIT_TASK 将 idle 进 程 的 


parent 指 针 指 向 它 自 身 。 此 时 ， 由 于 系统 中 只 
在 创建 init 进 程 期 间 ，kernel_thread 困 数 会 执行 aqo_fork 函 数 来 克隆 idqle 进 程 。 在 调用 


一 个 进程 ，next 指 针 亦 指向 其 自身 。 


do_fork 捕 数 时 ，kernel_threagd 消 数 曾 向 其 中 传人 CLONE_FS、CLONE_FILES 和 CLONE_SIGNAL 二 
个 克隆 标志 位 来 描述 创建 进程 时 需要 共享 的 进程 资源 。 

当时 的 克隆 标志 位 仅 作为 预 留 使 用 并 无 实际 意义 ， 
位 显然 与 实际 相 脱 节 ， 所 以 在 实现 功能 前 它们 要 进行 调整 和 重 定义 。 根 据 PCB 此 刻 拥有 的 资源 来 看 ， 
目前 可 以 实现 以 下 三 个 功能 ， 如 代码 清单 14-43 所 示 。 


代码 清单 14-43 ”第 14 章 \ 程 序 \ 程 序 14- 孜 物理 平台 \kernel\sched.h 


#define CLONE_VM (L000 /* shar 
#define CLONE_FS C1 < /* shar 
#define CLONE_SIGNAL (下 < 2) /* shar 


克隆 标志 位 CLONI 


现在 它们 将 被 赋予 实际 功能 。 可 是 ， 这 些 标志 


E_VM 表 示 共 享 进程 地 址 空间 ，CLON 


ed Virtual Memory between processes */ 
ed fs info between processes */ 
ed signal between processes */ 


BE_FS 表 示 共 享 进程 的 打开 文件 CLONE_SIGNAL 


表示 共享 进程 拥有 的 信号 。 由 于 目前 系统 尚未 实现 进程 间 的 信号 通信 ， 克 隆 标 志 位 CLONE_SICNRAL 暂 
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作 预 留 。 

为 了 区 分 函数 fork 与 vfork 创 建 出 的 进程 ， 特 在 进程 标志 位 中 引入 新 的 标志 位 PF_VFORK 来 描述 
当前 进程 的 资源 是 否 存 在 共享 ， 如 代码 清单 14-44 所 示 。 
代码 清单 14-44 ”第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \kernelvtask.h 


///////struct task_struct->flags: 


#define PF_KTHREAD (1UL << 0) 
#define NEED_SCHEDULE (1UDL << 1) 
#define PF_ VFORK (1UDL << 2) 


引入 进程 标志 位 PF_VFORK 的 目的 是 为 了 在 调用 exec 类 函数 时 ， 可 以 明确 是 否 要 为 进程 再 开辟 独 
立 的 资源 空间 。 

在 进程 的 地 址 空间 中 , 存在 着 一 个 名 为 BSS 的 数据 段 ， 它 保存 着 未 初始 化 的 全 局 变量 或 静态 数据 。 
BSS 段 的 特点 是 它 在 可 执行 文件 中 仅 有 地 址 空间 的 描述 ， 而 无 实体 数据 ， 只 有 当 系 统 加 载 可 执行 文件 
时 才 会 为 其 分 配 ( 初始化) 数据 空间 。 先 前 的 内 存 空 间 分 布 结 构 体 struct rmm_struct 缺 少 对 BSS 段 
的 描述 ， 此 时 我 们 应 该 妃 加 对 BSS 数 据 段 的 描述 ， 追 加 位 置 请 参见 代码 清单 14-45。 


代码 清单 14-45 ”第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \kernelvtask.h 


struct mm struct 


unsigned long start_bss,engd bss; 
unsigned long start_brk,engd brk; 
unsigned long start_stack; 


站 

准备 工作 已 基本 就 绊 ， 下 面 将 从 POSIX 规 范 着 手 ， 进 入 fork 与 vfork 函 数 的 实现 阶段 。 

@ 升级 完善 进程 创建 功能 

从 fork 和 vfork 国 数 的 声明 来 看 ， 它 们 在 执行 期 间 不 会 向 内 核 传人 参数 ， 故 此 cLONE_FSs 等 克隆 
标志 位 只 能 通过 内 核 硬 性 植 和 人 , 它们 对 应 的 系统 调用 API 处 理 函 数 名 为 sys_fork 与 sys_vfork， 实 现 
代码 如 代码 清单 14-46 所 示 。 


代码 清单 14-46 ”第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \kernel\vsys.c 


unsigned long sys_fork() 


{ 


struct pt_regs *regs = (struct pt_regs *)current->thread->rsp0 -1; 
Color_printk (GREEN, BLACK, "sys_fork\n"); 
return do_fork(regs,0,regs->rsp,0); 
} 
unsigned long sys_vfork!() 
{ 
struct pt_regs *regs = (struct pt_regs *)current->thread->rsp0 -1; 
color_printk (GREEN, BLACK, "sys_vfork\n"); 
return do_fork(regs,CLONE VM | CLONE_FS | CLONE_SIGNAL,regs->rsp,0); 
} 


无 论 是 kernel_thread 嘱 数 ， 还 是 sys_fork 或 sys_vfork 函 数 ， 它 们 都 是 为 了 创建 出 一 个 进 
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程 ， 只 不 过 它们 在 创建 过 程 中 对 资源 的 共享 情况 略 有 不 同 ， 所 以 仅 需 对 ao_fork 函 数 加 以 升级 便 可 满 
足 进 程 创建 的 各 种 不 同 需求 。 

图 数 sys_fork 和 sys_vfork 通 过 代码 struct pt_regs *regs = (struct pt_regs *) 
current->thread->rsp0 - 1; 索 引 到 父 进程 的 应 用 层 执行 现场 。 当 ao_fork 函 数 需要 的 数据 都 准 
备 齐 全 后 ， 方 可 正式 进入 进程 的 创建 环节 ， 代 码 清 单 14-47 是 升级 后 的 ao_fork 函 数 。 


代码 清单 14-47 ”第 14 章 \ 程 序 \ 程 序 14- 入 物理 平台 \kernelvtask.c 


unsigned long do_fork(struct pt_regs * regs, unsigned long clone_ flags, unsigned long 
stack_start, unsigned long stack_ size) 


int retval = 0; 
struct task_struct *tsk = NULL; 


// alloc & copy task struct 


tsk = (struct task_struct *)kmalloc (STACK_SIZE,0); 

color_printk (WHITE,BLACK,"struct task_ struct address:%#0181lx\n", (unsigned 
long)tsk); 

if (tsk == NULL) 

{ 
retval = -EAGAIN; 


goto alloc copy_task_ fail; 
} 
memset (tsk,0,sizeof (*tsk)); 
memcpy (current,tsk,sizeof (struct task_struct)); 
Jist_init(&tsk->list); 
tsk->priority = 2; 
tsk->pid = global_ pid++; 
tsk->preempt_count = 0;，; 
tsk->cpu_id = SMP_cpu_ id(); 
tsk->state = TASK_UNINTERRUPTIBLE; 


tsk->next = init task union.task.next; 
init_task union.task.next = tsk; 
tsk->parent = current; 

retval = -ENOMEM; 


// copy flags 

if(copy_flags (clone_ flags,tsk)) 

goto copy_flags_fail; 

// copy mm struct 

f (copy_mm(clone_ flags,tsk)) 
goto copy_mm fail; 

// copy file struct 

f (copy_files(clone flags,tsk)) 
goto copy_files_ fail; 

// copy thread struct 

f (copy_thread(clone flags,stack_ start,stack_ size,tsk,regs)) 
goto copy_thread_ fail; 

retval = tsk->pid; 

wakeup_process (tsk); 


EE 


Ye 


RR 


fork_ok: 
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return retval; 
copy_thread_fail: 
exit_thread (tsk); 
copy_files_fail: 
exit_files(tsk); 
copy_mm_ fail: 
exit_mm(tsk); 
copy_flags_fail: 
alloc_ copy_task_fail: 
kfree(tsk); 
return retval; 


} 
尽管 qo_fork 函 数 升级 后 的 面貌 已 焕然 一 


前 的 函数 锥 形 可 知 ，do_fork 函 数 会 先 为 PCB 分 配 存 储 空间 并 对 其 进行 初步 


量 glopal_piaq 对 进程 ID 号 的 赋值 操作 、 进 程 当 前 所 在 处 到 


所 ， 但 它 的 设计 思路 却 保持 不 变 依然 有 迹 可 循 。 参 照 先 


划 


” 


赋值 ， 其 中 会 涉及 全 局 变 
器 ID 号 的 赋值 操作 、 进 程 抢占 计数 值 的 初 


始 化 操作 、 进 程 加 入 搜索 链 的 插入 操作 (使 用 next 指 针 ) 
等 独立 资源 的 初始 化 操作 。 

当 这 些 独 立 资 源 初始 化 结束 后 , ao_for 
开 克 隆 或 共享 工作 。 如 细 
如 果 克 隆 成 功 ，do_fork 本 数 会 向 进 


Kk 函数 将 根据 参数 clone_f1lags 提 供 自 
克隆 过 程 中 的 任何 一 个 环节 发 生 错 误 ,， 则 进程 创建 宣告 失败 , 返回 错误 码 ; 
但 的 创建 者 ( 父 进程 ) 返 


以 及 记录 进程 创建 者 〈 使 用 parent 指 针 ) 


信息 对 父 进程 展 


回 子 进 程 的 ID 号 ， 再 通过 函数 


wakeup_process 把 子 进程 插入 到 准备 就 绪 队 列 中 ， 代 码 清 单 14-48 是 wakeup_process 函 数 的 程 


序 实现 。 
代码 清单 14-48 


inline void wakeup_process (struct task_struct 


{ 


tsk->state TASK_RUNNING; 
insert_task_ queue (tsk); 


} 


第 14 章 \ 程 序 \ 程 序 14- 和 物理 平台 \kernelNtask.c 


SY) 


unsigned long copy_flags (unsigned long clone flags,struct task_struct *tsk) 


{ 
if(clone_ flags & CLONE_VM) 
tsk->flags |= PF_VFORK; 
return 0; 


} 


unsigned long copy_files(unsigned long clone flags,struct task_struct *tsk) 


{ 


Tt ETOP Ss 0 

J 

if(clone_ flags & CLONE_FS) 
goto out; 

for(i = 0;i<TASK_FILE MAX;i++) 


if(current->file struct[i] != NULL) 


{ 


tsk->file_struct[i] 
memcpy (current->file struct[il],tsk- 


Ca 


(struct file *)kmalloc(sizeof (struct file),o0) 


>file_ struct[i],sizeof (struct file)); 
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return error; 
} 
void exit_files(struct task_struct *tsk) 
{ 

Ti 0 

if(tsk->flags & PF_VFORK) 


else 
for(i = 0;i<TASK_FILE MAX;i++) 
if(tsk->file_struct[i] != NULL) 
{ 
kfree(tsk->file_struct[i]); 
} 


memset (tsk->file_ struct,0,sizeof (struct file *) * TASK_FILE MAX); 


//clear current->file struct 


} 


函数 wakeup_process 的 功能 和 代码 实现 都 非常 简单 ， 此 处 就 不 再 过 多 讲解 ; 


困 数 copy_flags 


用 于 复制 进程 标志 位 它 会 判断 参数 clone_flags 传 人 的 标志 位 , 如 果 共 享 内 存 空 间 标志 位 CLONE_VM 


处 于 置 位 状态 ， 则 说 明 调 用 来 自 kernel_thread 或 sys_vfork 函 数 ， 进 程 需要 使 


用 PF_VFORK 标 志 位 


加 以 记录 ， 以 供 其 他 功能 在 执行 时 有 据 可 查 。 


函数 copy_files 用 于 复制 进程 的 文件 描述 符 ， 如 果 参 数 clone_flags 的 共享 文件 描述 符 标 志 位 


CLONE_FS 处 于 置 位 状态 ， 那 么 子 进程 将 共享 父 进程 的 文件 描述 符 〈 文 件 描述 符 指针 数组 已 在 PCB 的 
初步 赋值 期 间 完成 了 复制 工作 )， 否 则 函数 copy_files 将 为 子 进程 克隆 父 进 程 的 文件 描述 符 。 


和 文件 描述 符 指针 数组 的 清空 等 工作 。 


函数 exit_files 人 负责 回收 进程 已 经 打开 的 文件 ， 整 个 回收 过 程 将 包括 文件 描述 符 结 构 体 的 释放 


进程 标志 位 与 进程 文件 描述 符 的 克隆 过 程 相对 比较 简单 。 认 知 它们 之 后 ,我们 下 面 将 提升 一 下 难 


度 ， 看 看 进程 地 址 空间 的 克隆 过 程 ， 请 见 代码 清单 14-49。 
代码 清单 14-49 ”第 14 章 \ 程 序 \ 程 序 14- 八 物理 平台 \kernel\task.c 


unsigned long copy_mm(unsigned long clone_ flags,struct task_ struct *tsk) 


{ 
nt .error = 0 
struct mm_struct *newmm = NULL; 
unsigned long code_start_ addr = 0x800000; 
unsigned long stack_start_addr = 0xa00000; 
unsigned long * tmp; 
unsigned long * virtual = NULL; 
struct Page * p = NULL; 


if(clone_ flags & CLONE_VM) 
newmm = current->mm; 


goto out; 


} 


newmm = (struct mm struct *)kmalloc(sizeof (struct mm struct),0); 


memcpy (current->mm,newmm,sizeof (struct mm struct)); 


- 立 - 人 
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newmm->pgd = (pml4t_t *)Virt_To_Phy (kmalloc (PAGE 4K_SIZE,0)); 

memcpy (Phy_To_Virt(init task[SMP_cpu_id()]->mm->pgd)+256,Phy_To_Virt (newmm-> 
pgd)+256, PAGE 4K_SIZE/2); //copy kernel space 

memset (Phy_To_Virt (newmm->pgd) ,0,PAGE 4K_SIZE/2); //copy user code & data & bss 
space 

tmp = Phy_To_Virt((unsigned long *) ((unsigned long)newmm->pgd & (~ OxfffUL)) + 

((code_start_addr >> PAGE_GDT_SHIFT) & 0xlff)); 

virtual = kmalloc (PAGE 4kK_SIZE,0); 

memset (virtual,0,PAGE 4K_SIZE); 

set_mpl4t (tmp,mk_ mpl4t (Virt_To_Phy (virtual),PAGE _ USER_GDT)); 

tmp = Phy_To_Virt((unsigned long *) (*tmp & (~ OxfffUL)) + ((code_ start_adgdr >> 
PAGE_1G_SHIFT) & Oxlff)); 

Virtual = kmalloc (PAGE 4kK_SIZE,0); 

memset (virtual,0,PAGE 4K_SIZE); 

set_pdpt (tmp,mk_pdpt (Virt_To_Phy (virtual),PAGE_ USER_ Dir)); 

tmp = Phy_To_Virt((unsigned long *) (*tmp & (~ OxfffUL)) + ((code_ start_adgdr >> 
PAGE_2M_SHIFT) & Oxlff)); 

p = alloc_ pages (ZONE_NORMAL,]1,PG_PTable Maped); 

set_pdt (tmp,mk_pdt (p->PHY_address, PAGE_USER_Page)); 

memcpy ( (void *)code_start_ addr,Phy_To_Virt (p->PHY_address),stack_start_addr - 
code_start_addr); 

out: 


} 


tsk->mm = newmm; 
return error; 


void exit mm(struct task_ struct *tsk) 


{ 


unsigned long code_start_addr = 0x800000; 
unsigned long * tmp4; 
unsigned long * tmp3; 
unsigned long * tmp2; 


if(tsk->flags & PF_VFORK) 
return; 


if(tsk->mm->pgd != NULL) 
{ 
tmp4 = Phy_To_Virt((unsigned long *) ((unsigned long)tsk->mm->pgd & (~ OxfffUL)) 
+ ((code_start_addr >> PAGE_GDT_SHIFT) & Oxlff)); 


’ 


tmp3 = Phy_To_Virt((unsigned long *) (*tmp4 & (~ OxfffUL)) + ((code_ start_ 
addr >> PAGE_1G_SHIFT) & 0xlff)); 
tmp2 = Phy_To_Virt((unsigned long *) (*tmp3 & (~ OxfffUL)) + ((code_ start_ 
) 


addr >> PAGE 2M_ SHIFT) & Ox1ff) 


free_pages (Phy_to_2M Page(*tmp2),1); 
kfree(Phy_To_Virt (*tmp3)); 
kfree(Phy_To_Virt(*tmp4)); 
kfree(Phy_To_ Virt (tsk->mm->pgd)); 
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} 
if(tsk->mm != NULL) 
kfree(tsk->mm); 


} 

copy_mm 限 数 依然 会 先 检测 参数 clone_f1lags 提 供 的 标志 位 ， 如果 do_fork 也 数 允许 父子 进程 共 
享 地 址 空间 (使 用 cLONE_VM 标 志 位 )， 那 么 子 进程 直接 引用 父 进程 的 内 存 空间 分 布 结构 体 struc 
mm_struct 即 可 ; 否则 ，copy_mm 函 数 将 为 子 进程 创建 全 新 的 struct mm_struct 结 构 体 ， 并 将 父 ; 
程 的 数据 复制 到 其 中 。 
由 于 所 有 进程 的 内 核 层 地 址 空间 均 是 共享 的 ， 那么 这 里 必须 复制 内 核 层 地 址 空间 的 页 表 项 ( 复制 
顶层 页 表 项 pm14t_t 即 可 )， 而 其 应 用 层 地 址 空间 则 是 完全 独立 的 ， 我 们 必须 为 它 建立 全 新 的 页 表 结 
构 。 目 前 暂 将 应 用 程序 运行 在 地 址 空间 0x800000~0xa00000 范 围 内 (一 个 2MB 的 物理 页 ) 缩小 地 址 

空间 范围 可 有 效 减 / ee 

在 页 表 结 构建 立 以 后 ， 还 需要 把 父 进程 的 程序 和 数据 ( 应 用 层 ) 复制 到 子 进 程 中 。 由 于 页 表 项 保 
| 而 访问 页 表 或 页 面 却 必须 使 用 页 表 或 页 面 的 虚拟 地 址 ， 所 以 在 操作 页 
表 或 页 面 时 请 读者 多 加 注意 。 

exit_mm 国 数 负责 释 放 内 存 空 间 分 布 结构 体 struct mm_struct，exit_mm 也 数 与 copy_mm 函 数 
的 内 存 空间 分 布 结构 体 初始 化 过 程 相 逆 

既然 进程 已 拥有 独立 的 页 表 结 构 ， 那么 进程 调度 切换 过 程 \ 须 相继 加 入 页 表 切 换 程序 。 通 过 向 控 
制 寄 存 器 CR3 写 入 目标 进程 的 页 目录 物理 基地 址 就 可 完成 页 表 切 换 工 作 ,， 详 细 实 现 如 代码 清单 14-50。 


代码 清单 14-50 ”第 14 章 \ 程 序 \ 程 序 14- 入 物理 平台 \kernelvtask.c 


inline void Switch_mm(struct task_struct *prev,struct task_struct *next) 


{ 


上 


9 


岩 


_asm _ volatile _ ("movqg $0, 委 委 CT3 \n\t"::"r" (next->mm->pgd) : "memory" ) 


} 
页 表 切 换 工 作 只 能 在 全 部 进程 共享 的 地 址 空间 ， 即 内 核 层 地 址 空间 里 进行 。 它 的 切换 时 机 应 该 在 
进程 调度 过 程 内 、 进 程 切 换 之 前 。 故 此 ， 特 将 switch_mm 函 数 插入 到 进程 切换 函数 switch_to 前 , 具 
体 实 现 请 参见 代码 清单 14-51。 
代码 清单 14-51 第 14 章 \ 程 序 \ 程 序 14- 和 物理 平台 \kernel\schedule.c 


void schedule() 


Color_printk (YELLOW, BLACK, "#schedule:%1d,pid:%l1d(%1d)=>>pid:%1ld(%1d)#\n",jiffies, 
current->pid,current->vrun time,tsk->pid,tsk->vrun time); 
switch_mm(current,tsk); 
switch_tol(current,tsk); 


此 时 ， 进 程 ID 值 已 经 具备 唯一 标识 进程 的 能 力 ， 那 么 在 进程 调度 函数 中 显示 ID 值 可 让 进程 切换 过 
程 更 加 清晰 、 直 观 ， 所 以 我 们 才 对 schedule 函 数 打 印 的 日 志 信 息 进 行 调整 。 
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当 子 进程 的 大 部 分 信息 已 准备 就 绪 后 ， 接 下 来 将 为 子 进程 伪造 应 用 层 执 行 现 场 。 这 项 任务 由 
copy_thread 函 数 负 责 完 成 ， 它 会 先 复制 父 进程 的 线程 执行 现场 结构 struct thread_struct，,， 并 
在 此 基础 上 加 以 调整 ， 使 得 父子 进程 从 fork 函 数 开 始 分 道 扬 镰 ， 代 码 清单 14-$2 是 该 函数 的 实现 。 


代码 清单 14-52 ”第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \kernelvtask.c 


unsigned long copy_thread(unsigned long clone_ flags,unsigned long 
stack_start,unsigned long stack_size,struct task_struct *tsk,struct pt_regs * regs) 
{ 

struct thread_struct *thd = NULL; 

struct pt_regs *childregs = NULL; 

thd = (struct thread_struct *) (tsk + 1); 

memset (thd,0,sizeof (*thd)); 

tsk->thread = thd; 

childregs = (struct pt_regs *) ((unsigned long)tsk + STACK_SIZE) - 1; 


memcpy (regs,childregs,sizeof(struct pt_regs)); 
hildregs->rax = 0; 
hildregs->rsp = stack_start; 


Vt 


hd->rsp0 = (unsigned long)tsk + STACK_SIZE; 
hd->rsp = (unsigned long)childregs; 

hd->fs = current->thread->fs; 

hd->gs = current->thread->gs; 


(A TFT 


if(tsk->flags & PF_KTHREAD) 

thd->rip = (unsigned long)kernel thread_ func; 
else 

thd->rip = (unsigned long)ret_system call; 


color_printk (WHITE,BLACK, "current user ret addr:%#0181x,rsp:%#0181x\n", 
regs->r10,regs->r11); 

color_printk (WHITE,BLACK, "new user ret addr:%#0181x,rsp:%#018lx\n", 
childregs->r10,childregs->r11); 


return 0; 


} 


void exit_ thread(struct task_ struct *tsk){} 

函数 copy_thread 首 先 为 子 进程 建立 struct thread_struct 结 构 体 存储 空间 和 应 用 层 执行 现 
场 (struct pt_regs 结 构 体 )。 接 着 ， 再 将 父 进程 的 执行 现场 复制 到 子 进 程 ， 并 对 子 进 程 的 执行 现 
场 加 以 修改 ， 其 中 的 代码 chilqregs->rax = 0 用 于 设置 fork 函 数 在 子 进 程 中 的 返回 值 ， 而 代码 
childregs->rsp = stack_start 则 是 为 了 设置 子 进 程 的 应 用 层 栈 指针 。 最 后 ， 将 进程 切换 时 使 用 
的 相关 数据 保存 到 结构 体 struct threagd_struct 中 ,程序 thd->rip = (unsigned long)ret_ 
system_call 负 责 指定 子 进程 的 起 始 运 行 地 址 ， 从 地 址 ret_system_call 可 以 看 出 子 进程 未 曾 执 行 
过 sys_fork 函 数 ， 也 就 是 说 子 进程 将 跳 过 进程 创建 过 程 直接 返回 到 应 用 层 。 

虽然 do_fork 函 数 已 经 实现 ,但 整个 升级 工作 并 未 结束 。 为 了 保证 系统 创建 出 的 进程 始终 拥有 相 
同 的 内 核 层 地 址 空间 ，igle 进 程 作为 页 表 结 构 复制 的 根源 ， 应 该 在 初始 化 期 间 至 少 完成 内 核 层 地 址 空 
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间 在 顶层 页 表 (pm1l14t_t ) 中 的 映射 ， 这 个 映射 过 程 由 代码 清单 14-53 负 责 实现 。 
代码 清单 14-53 ”第 14 章 \ 程 序 \ 程 序 14- 八 物理 平台 \kernel\task.c 


void task_ init() 
unsigned long * tmp = NULL; 
unsigned long * vaddr = NULL; 
i 


vaddr = (unsigned long *)Phy To Virt((unsigned long)Get gdt() & (~ OxfffUL)); 
Qi "UL: 


ffOE(T ,62 生生 ) 
{ 
tmp = vaddr + i; 
if(*tmp == 0) 
{ 
unsigned long * virtual = kmalloc (PAGE 4K_SIZE,0); 
memset (virtual,0,PAGE 4K_SIZE); 
set_mpl4t (tmp,mk_mpl4t (Virt_To_Phy (virtual),PAGE KERNEL_ GDT)); 


init_mm.pgd = (pml4t_t *)Get_gdt(); 

init_mm.start_code = memory_management_struct.start_code; 
init_mm.end_ rodata = memory_management_struct.end_ rodata; 
init_mm.start_bss = _bss; 

init_mm.end_bss ebss; 

init_mm.end_ brk memory_management_struct.engd_ brk; 


list_init(&init task union.task.list); 
kernel thread(init,10,CLONE_ FS | CLONE_SIGNAL); 


内 核 层 地 址 空间 占用 顶层 页 表 的 后 256 个 页 表 项 ，task_init 捕 数 通过 循环 遍历 idle 进 程 硕 层 页 
表 项 的 方式 ,为 其 中 的 空白 页 表 项 分 配 页 表 空间 。 同 时 ，task_init 函 数 还 对 init_mm ( 内 存 空间 分 
布 结构 体 struct mm_struct ) 新 加 入 的 成 员 变 量 进行 了 初始 化 ， 并 修正 kernel_thread 也 数 在 创 
建 init 进 程 时 传人 的 标志 位 。 

为 了 保证 多 核 引导 程序 顺利 执行 ， 曾 经 恢复 过 线性 地 址 0 和 0oxffff800000000000 处 的 重 映射 ， 
现在 可 通过 代码 *vaddr = 0UL; 将 它们 一 并 清除 。 

四 4 能 由 idle 进 程 或 1ale 进 程 衍 生出 的 内 核 线程 所 创建 ， 它 们 的 活动 范围 仅 限 于 内 
核 层 地 址 空间 ， 这 使 得 内 核 线 程 无 需 开辟 独立 的 地 址 空间 ， 与 iale 进 程 共享 地 址 空间 即 可 。 因 此 , 在 
创建 内 核 线程 时 ， 共 享 地 址 空间 资源 是 个 必 选 项 ， 其 他 资源 可 依 实际 情况 而 定 ， 代 码 清 单 14-54 是 创建 
内 核 线程 时 向 do_fork 函 数 传人 的 克隆 标志 位 。 
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代码 清单 14-54 ”第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \kernelvtask.c 


int kernel_ thread (unsigned long (* fn) (unsigned long), unsigned long arg, unsigned long 
flags) 


return do_fork(&regs,flags | CLONE_ VM,0,0); 
} 


这 段 程 序 通 过 强制 向 qo_fork 函 数 传人 克隆 标志 位 CLONE_VM 来 达到 共享 内 核 线程 地 址 空间 的 
目的 。 

@ 实现 应 用 程序 加 载 功能 

应 用 层 的 第 一 个 程序 是 由 idle 进 程 创建 的 ,这 个 创建 过 程 已 在 此 前 代码 中 予以 实现 。 由 于 功能 所 
限 ， 当 时 只 能 使 用 函数 user_level_function 代 替 应 用 程序 。 现 在 ， 既 然 系统 已 经 具备 访问 文件 的 
能 力 ， 那 么 函数 user_level_function 可 由 应 用 程序 取而代之 。 

此 前 的 init 进 程 是 由 do_execve 函 数 负责 加 载 到 应 用 层 ， 其 实 do_execve 是 exec 类 系统 调用 
API 的 核心 功能 函数 ， 它 能 够 根据 参数 提供 的 文件 路 径 名 执行 文件 系统 中 的 程序 ， 因 此 程序 加 载 代码 
应 该 在 do_execve 函 数 中 实现 。 为 了 达到 加 载 应 用 程序 的 目的 ， 特 向 函数 do_execve 追 加 参数 name 
来 记录 文件 路 径 名 ， 代 码 清单 14-55$ 是 ao_execve 函 数 的 部 分 程序 实现 。 


代码 清单 14-55 ”第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \kernelvtask.c 


unsigned long qdqo_execve (Struct pt_regs *regs,char *name) 


{ 


unsigned long code_start_addr = 0x800000; 
unsigned long stack_ start_addr = 0xa00000; 
unsigned long * tmp; 

unsigned long * virtual = NULL; 

struct Page * p = NULL; 

struct file * filp = NULL; 

unsigned long retval = 0; 

long pos = 0; 


regs->ds = USER._DS; 
regs->es = USER_DS; 
regs->ss = USER_DS; 
roe?0S. SUBSER CS 


// regs->rip = new_rip; 
// regs->rsp = new_rsp; 
regs->r10 = 0x800000; 
regs->r1l1 = 0xa00000; 
regs->rax = 1; 
color_printk (RED,BLACK, "do_execve task is running\n"); 
if(current->flags & PF_VFORK) 
{ 
current->mm = (struct mm _ struct *)kmalloc(sizeof (struct mm struct),0); 
memset (current->mm,0,sizeof (struct mm _ struct)); 


current->mm->pgd = (pml4t_t *)Virt_To_Phy (kmalloc (PAGE 4K_SIZE,0)); 
color_printk (RED,BLACK, "load binary_file malloc new pgd:%#0181lx\n", 
current->mm->pgd); 
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memset (Phy_To_Virt (current->mm->pgd),0,PAGE_ 4K_SIZE/2); 
memcpy (Phy_To_Virt (init_ task[SMP_cpu_id()]->mm->pgd)+256,Phy_To_Virt 
(current->mm->pgd) +256,PAGE_4K_SIZE/2); //copy kernel space 


为 了 使 当前 进程 能 够 执行 新 程序 ， 那 么 进程 就 需要 经 过 一 个 漫长 的 自我 更 新 过 程 。 以 上 代码 为 新 


程序 重新 初始 化 应 用 层 执行 现场 ， 随 后 再 对 进程 标志 位 进行 检测 。 如 果 当 前 进程 使 用 PF_VFORK 标 志 
立 ， 说 明 它 正在 与 父 进程 共享 地 址 空间 ， 而 新 程序 必须 拥有 独立 的 地 址 空间 才能 正常 运行 (这 是 一 个 
非常 重要 的 前 提 )。 


经 过 上 述 代 码 处 理 ， 当 前 进程 开始 逐渐 脱离 过 去 ， 进 入 新 程序 的 初始 化 阶段 。 首 先 要 为 新 程序 准 


备 应 用 层 地 址 空间 ， 即 为 新 程序 准备 页 表 结 构 。 如 果 原 进程 存在 页 表 结 构 ， 那 么 新 程序 可 继续 使 用 原 


旦 的 页 表 结 构 ; 和 否则， 必须 为 其 分 配 物 理 页 ， 并 建立 映射 关系 。 这 与 copy_mm 了 因数 克隆 内 存 地 址 空 


间 的 过 程 相 似 ， 有 具体 程 序 实 现 请 见 代 人 码 清单 14-56。 
代码 清单 14-56 ”第 14 章 \ 程 序 \ 程 序 14- 入 物理 平台 \kernelvtask.c 


tmp = Phy_To_Virt( (unsigned long *) ((unsigned long)current->mm->pgd & (~ 0xfffUL)) 

((code_start_addr >> PAGE_GDT_SHIFT) & Oxlff)); 
if(*tmp == NULL) 

{ 
Virtual = kmalloc (PAGE 4K_SIZE,0); 
memset (Virtual,0, PAGE 4K_SIZE); 
set_mpl4t (tmp,mk_mpl4t (Virt_To_Phy (virtual),PAGE USER_GDT)); 

} 

tmp = Phy_To_Virt((unsigned long *) (*tmp & (~ OxfffUL)) + ((code_ start_addr >> 
PAGE_1G_SHIFT) & Oxlff)); 

if(*tmp == NULL) 

{ 
Virtual = kmalloc (PAGE_ 4K_SIZE,0); 
memset (virtual,0,PAGE 4K_SIZE); 
set_pdpt (tmp,mk_pdpt (Virt_To_Phy (virtual),PAGE_USER Dir)); 

} 

tmp = Phy_To_Virt((unsigned long *) (*tmp & (~ OxfffUL)) + ((code_start_addr >> 
PAGE_2M_SHIFT) & Oxlff)); 

if(*tmp == NULL) 


{ 
p = alloc pages (ZONE_NORMAL,1,PG_PTable_ Maped); 
set_pdt (tmp,mk_pdt (p->PHY_address, PAGE_USER_Page) ) ; 


if(!(current->flags & PF_KTHREAD)) 
current->addr_limit = TASK_SIZE; 


current->mm->start_code 
current->mm->end_code = 


Code_start_addr; 


current->mm->start_data 
current->mm->end_data = 


} 
asm ___ volatile _ ("movg $0, SScCr3 \n\t"::"r"(current->mm->pgd) : "memory" ) ; 4 
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存 器 以 及 内 存 空间 分 布 结构 体 
程 的 标志 位 PF_VFORK 将 被 复位 ， 原 进程 便 不 复 存 在 。 

估 索 目标 文件 ， 如 果 目 标 文 件 存在 ， 那 么 就 将 文件 
细 程 序 实现 如 代码 清单 14-57。 


代码 清单 14-57 ”第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \kernelvtask.c 


filp = open exec_file(name); 


地 址 空间 的 指定 位 置 处 ， 讨 


current->mm->start_rodata 
current->mm->end_rodata 


current->mm->start_bss 
current->mm->end_bss = 
current->mm->start_brk 
current->mm->end_brk = 


current->mm->start_stack 


exit_files(current); 


current->flags &= ~PF_VFORK; 


stack_start_addr; 


由 于 每 个 进程 的 应 用 层 地 址 空间 是 独 享 的 ， 那 么 在 新 的 页 表 初 始 化 完毕 后 ， 应 该 立即 更 新 CR3 寄 


接 下 来 的 工作 是 为 新 进程 


if((unsigned long)filp > -0x1000UL) 
return (unsigned long)filp; 


memset ( (void *)0x800000,0,PAGE 2M_ SIZE); 


! 的 各 个 成 员 变量 。 当 函数 exit_files 释 放 原 进程 打开 的 文件 后 ， 进 


! 的 数据 加 载 到 内 存 


retval = filp->f_ops->read (filp, (void *)0x800000,filp->dentry->dir_inode-> 


file_ size,é&pos); 


return retval; 


代码 清单 14-57 中 的 函数 open_exec_file 用 于 搜索 文件 系统 
件 ， 那 么 函数 将 返回 代表 目标 文件 的 文件 描述 符 结构 ， 代 码 清单 14-58 是 open_exec_file 函 数 的 
代码 实现 。 
代码 清单 14-58 ”第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \kernelvtask.c 


struct file * open exec file(char * path) 


{ 


struct dir _ entry * dentry 


strict file xD 


dentry = path walk (pat 


if(dentry == NULL) 


return (void *)-E 
if(dentry->dir_inode->attribute == FS_ATTR_DIR) 
return (void *)-E 


ff 让] 守 : ( 浴 心 全 人 CE 二 TE 关 


if (filp == NULL) 


return (void *)-E 


TT 


)kmalloc(sizeof (struct file),0); 


， 如 果 发 现 目标 文 
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filp->position = 0; 

filp->mode = 0; 

filp->dentry = dentry; 

filp->mode = O_RDONLY; 

filp->f_ops = dentry->dir_inode->f_ops; 


return filp; 

} 

如 果 读 者 对 比 open_exec_file 限 数 与 sys_open 随 数 ， 会 发 现 二 者 的 执行 流程 基本 相似 。 
open_exec_file 国 数 最 重要 的 作用 是 为 目标 文件 描述 符 指 派 操作 方法 (代码 filp->f_ops = 
dentry->dir_inode->f_ops ) 以 待 后 续 操 作文 件 时 使 用 。 

如 果 函 数 open_exec_file 执 行 成 功 ， 接 下 来 我 们 便 可 借助 文件 描述 符 的 数据 读 取 操作 方法 
( filp->f_ops->read )， 将 文件 里 的 数据 加 载 到 指定 内 存 地 址 空间 。 在 加 载 数据 前 ， 切 记 要 清空 地 
址 空间 内 的 脏 数据 ， 以 免 程序 运行 时 产生 错误 ( 错误 很 可 能 是 由 BSS 段 内 的 脏 数据 造成 的 )。 

最 后 ， 再 根据 函数 ao_execve 和 PCB 的 升级 内 容 , 来 调整 init 进 程 的 执行 代码 ,调整 内 容 请 见 代 
码 清单 14-59。 


代码 清单 14-59 第 14 章 \ 程 序 \ 程 序 14- 入 物理 平台 \kernelvtask.c 


unsigned long init (unsigned long arg) 


{ 


DISK1_FAT32_FS_init(); 


Color_printk (RED,BLACK, "init task is running,arg:%#018lx\n",arg); 


current->thread->rip = (unsigned long)ret_system call; 
current->thread->rsp = (unsigned long)current + STACK_SIZE - sizeof (struct 
pt regs); 


current->thread->gs = USER_DS; 
current->thread->fs = USER_DS; 
current->flags &= ~PF_KTHREAD; 


5 _ Volatile _ ( "movg $1, $$%rsp NnNt 
"pushq $2 NN? 
"jmp do_execve \n\t" 


:"D" (current->thread->rsp), "m" (current->thread->rsp), 
"m" (current->thread->rip),"S"("/init.bin") 
: "memory" 


return 1; 
} 


在 init 进 程 的 执行 过 程 中 ，init 进 程 会 主动 放弃 内 核 线程 的 身份 ， 将 自己 修改 为 普通 进程 。 尽 
管 init 进 程 此 刻 还 没有 实体 程序 ， 但 是 伴随 着 do_execve 函 数 的 执行 结束 ，init 进 程 将 作为 一 个 全 
新 的 个 体 运 行 于 操作 系统 中 。 新 的 程序 位 于 文件 系统 根 目录 下 ， 名 为 init .bin。 
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@ 实现 应 用 层 测试 程序 
当 系 统 内 核准 备 好 加 载 应 用 程序 /initbin 后 ， 下 面 就 来 实现 一 个 名 为 initbin 的 应 用 程序 。 既 


然 此 前 


已 经 有 应 用 程序 蔡 代 子 数 user_level_function 的 实现 与 使 用 基础 ， 现 在 去 编写 一 个 应 用 程 


序 想必 


不 会 太 困 难 。 作 为 一 个 定制 的 应 用 程序 ，init.bin 一 点 也 不 普通 ， 其 代码 实现 不 会 简单 到 直接 将 


user_level_function 困 数 更 名 为 main。 


在 编写 应 用 程序 的 主 函 数 main 前 ， 要 先 为 其 实现 应 用 层 的 系统 调用 API 入 口 程序 ， 这 项 工 
从 内 核 中 复制 一 份 系统 调用 向 量 表 ， 并 为 这 些 向 量 编写 系统 调用 API 入 口 程序 ， 代 码 清单 14-60 
已 实现 的 系统 调用 API， 它 们 是 从 内 核 的 unistd.h 文 件 中 复制 而 来 。 


代码 清单 14-60 ”第 14 章 \ 程 序 \ 程 序 14- 八 物理 平台 \user\syscall.h 


#ifndef __SYSCALL H 
#define __SYSCALL H _ 


#define _NR putstring 1 
#define __NR_ open 2 
#define _NR close 3 
#define __ NR read 4 
#define _ NR write 5 
#define __NR lseek 6 
#define __NR fork 7 
#define __ NR vfork 8 
#endif 


系统 调用 向 量 表 在 应 用 层 建立 出 副本 后 ， 它 们 还 需要 相继 编写 系统 调用 API 入 口 程序 。 既 


站 


目前 


[ny 


然 系 统 


调用 API 入 口 程序 已 在 user_level_function 函 数 里 使 用 多 次 ， 那 么 直接 将 人 口 程序 移植 过 来 即 
可 , 但 是 伴随 着 系统 调用 向 量 表 的 持续 扩充 , 为 每 个 系统 调用 API 实 现 一 套 入 口 程序 显然 是 不 可 取 的 。 


故此 ， 代 码 清单 14-61 使 用 一 套 宏 函数 和 汇编 模块 来 简化 程序 实现 。 
代码 清单 14-61 ”第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \usewlib.c 


#include "syscall.h" 


#define SYSFUNC_DEF (name) SYSFUNC_DEF_ (name,__NR_ ##name) 
#define _SYSFUNC_DEF_ (name,nr) SYSFUNC_DEF__ (name,nr) 
#define SYSFUNC_DEF__ (name,nr) \ 

asm _ ( \ 

".global "#name" \n\t" \ 

".type "#name", @function \n\t" \ 

#name": NRNE” \ 

"movg Sn Srax WTI % 

"jmp LABEL_SYSCALL NTN 入 


站 
SYSFUNC_DEF (putstring) 


SYSFUNC_DEF (open) 
SYSFUNC_DEF (close) 
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SYSFUNC_DEF (read) 
SYSFUNC_DEF (write) 
SYSFUNC_DEF (lseek) 


SYSFUNC_DEF (fork) 
SYSFUNC_DEF (vfork) 


_asm ( 

"LABEL_SYSCALL: NHN 
"pushq 当世 二条 \n\t' 
"pushqa Sr11 NINE 
"leag sysexit_return address (S$rip), sr10 \n\t' 
"movd Srsp, Sr11 NN 
"sysenter NE 
"sysexit_return address: NE 
"xchgq sb: Sr10 \n\t' 
"xchgq eb SELL \n\t' 
"Dopd Sr11 NNN 
"Popd Sr10 \n\t' 
"cmpq $-0x1000, %Srax \n\t' 
We LABEL_SYSCALL_RET MN 
"movg Srax, errno (Srip) \n\t' 
esael Sls Srax NNN 
"LABEL_SYSCALDL_RET: NN 


"retq \n\ 
) 


这 段 代 码 将 原 系统 调用 API 入 口 程序 拆 分 成 上 下 两 部 分 上 层 部 分 借助 宏 函 数 为 每 个 系统 调用 API 
实现 入 口 程序 ， 其 中 的 宏 代码 #name" : \n\t" 展 开 后 会 变 为 系统 调用 API 的 入 口 标识 符 ， 而 宏 代 码 
".type "#name",@function \n\t" 则 用 于 描述 入 口 标识 符 的 类 型 为 函数 。 同 时 ， 为 了 使 这 些 函 数 
能 与 其 他 文件 链接 成 可 执行 程序 ， 此 处 还 使 用 代码 " .global "#name"”\n\t" 将 入 口 标识 符 声 明 为 
全 局 可 见 。 下 层 部 分 是 系统 调用 API 和 人口 程序 的 公用 代码 ,每 个 系统 调用 API 都 将 通过 这 部 分 代码 进入 
内 核 层 。 当 系统 调用 执行 完毕 ， 下 层 部 分 还 会 对 返回 值 进行 验证 ， 如 果 返 回 的 是 错误 码 ， 则 将 其 保存 
在 全 局 变量 errno 中 ， 并 返回 -1 以 表示 系统 调用 执行 出 错 。 

系统 调用 API 的 函数 声明 位 于 POSIX 规 范 指 定 的 头 文件 〈 请 参见 各 函数 简介 表 ) 中 ， 这 些 头 文件 
不 仅 记录 着 函数 声明 ， 还 保存 着 函数 的 相关 结构 体 定义 、 宏 常量 定义 等 信息 ， 目 前 共有 fcntLh、stdio.h 
以 及 unistd.h 三 个 头 文件 。 

当 实 现 系统 调用 API 和 人口 程序 后 ， 现 在 可 将 函数 user_level_function 的 测试 代码 移植 到 应 用 
程序 中 ， 代 码 清单 14-62 是 移植 后 的 应 用 程序 主 函 数 。 
代码 清单 14-62 第 14 章 \ 程 序 \ 程 序 14- 八 物理 平台 \usen\init.c 

#include "unistd.h" 


#include "stdio.h" 
#include "fcntl.h" 


int main() 
{ 
init, £d. 0% 
char string[]="/JIOL123L1lliwos/89AIOlejk.TXxT"; 


unsigned char buf[32] = {0}; 
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fd = open(string,0) ， 
writel(fd,string,20); 
lseek (fd,5,SEEK_ SET); 
read (fd, buf,30); 
close (fqd); 
putstring (buf); 
if (fork(} =°0) 
putstring("child process\n"); 
else 
putstring("parent process\n");} 
while(1); 
return 0; 
} 
这 段 程序 在 user_level_function 函 数 的 基础 上 追加 了 进程 创建 代码 。 为 了 保证 应 用 程序 能 够 


正常 运行 ， 还 需要 对 应 用 程序 的 编 
stack_start_addr 指 定 的 地 址 处 〔 线 履 
段 所 在 地 址 空间 ， 代 码 清单 14-63 是 地 址 空间 的 规划 细节 。 

代码 清单 14-63 ”第 14 章 \ 程 序 \ 程 序 14- 了 物理 平台 \userUserlds 


OUTPUT_FORMAT ("elf64-x86-64","elf64-x86-64","elf64-x86-64") 


OUTPUT_ARCH (i386:x86-64) 
ENTRY (main) 
SECTIONS 


{ 


-二 0 关 8:0:00:00:; 

.text : 

{ 
_text = 
init.o(.text); 
*(.text) 
_etext = .; 

} 

. = ALIGN(8); 

.data : 

{ 
“data eS... 
*(.data) 
_edata = .; 

} 

.rodata : 

{ 
rodata. = .2 
*(.rodata) 
_erodata = .; 


.bss : 


{ 


译 链 接 过 程 做 特殊 处 理 。 按 照 ao_execve 函 数 的 代码 实现 ， 应 月 
序 将 被 加 载 到 变量 code_start_agdgdr 指 定 的 地 址 处 (线性 地 址 0x800000 )， 而 栈 顶 将 被 设置 在 变量 


三 


地 址 0xa00000 )。 应 用 程序 使 用 链接 脚本 Userlds 来 规划 各 
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-SS = 3 
(.bss) 
_ebss = .; 
} 
J SS 3 


} 


这 上 段 程序 是 参考 kernel.1ds 链 接 脚 本 文 伯 
文件 的 .text 段 强制 安放 到 目标 


口 ) 强行 放置 在 .text 段 的 起 始 处 ， 以 免 文 件 链接 顺序 不 同 造成 人 


人 


障 代码 的 优势 显而易见 ， 它 同 术 


地 本 文件 中 。 
虽然 在 链接 脚本 的 帮助 下 ， 


的 协助 是 不 够 的 。 目 前 的 内 核 程序 只 
程序 。 因 此 机 器 码 必 须 从 编译 后 的 应 用 程序 中 提取 出 来 ， 


说 


单 14-64 是 此 过 程 使 用 的 命令 。 


和 可 以 作用 于 内 核 程 序 ， 故 将 代码 he 


编写 而 成 的 ， 代 码 init.o(.text) ;的 作用 是 将 init.o 
程序 的 .text 段 的 起 始 处 。 此 举 的 好 处 是 可 以 把 main 函 数 (程序 人 


口 程序 所 在 位 置 不 正确 。 这 种 保 
ad.o(.text); 加 入 到 内 核 链接 


链接 器 会 按照 我 们 规划 的 地 址 空间 去 保存 各 段 数 据 ， 但 只 有 链接 脚本 


代码 清单 14-64 ”第 14 章 \ 程 序 \ 程 序 14- 和 物理 平台 \userNMakefile 


all: system api_lib 
objcopy -I elf64-x8 
LT i 


system api_lib: init.o 
ld -b elf64-x86-64 


能 执行 下 机 融 伯 所 碟 Hi 风 用 程序 ， 无 法 解析 带 有 文件 格式 的 应 用 
这 个 提取 过 程 需要 编译 脚本 的 支持 ， 代 码 清 


6-64 -S -R ".eh frame" -R ".comment" -0O binary system api_lib 


lib.o errno.o 


-Z muldefs -o system api_lib init 


‘O: Tib.6O. errnoo -TT USer.Lds 


至 此 ,一 个 应 用 程序 就 编写 完成 。 将 编译 链接 生成 的 机 器 码 文 伯 
系统 根 目录 下 便 可 进行 测试 ， 图 14-9 是 应 用 程序 的 运行 效果 。 


andjer ,preempt 
和 handler ,preempt 
disk_handler ee 
disk_hand. 
disk_hand 
disk_handler,preenpt 
disk_handler, 
disk handler 


00000001 
00000001 
00000001 


0xftiit80000014fta8,BIP:Oxftfttft800000106dd]| 
Oxffff80000014f1a8, RIP : Oxffff800000106ded 
Oxffff80000014ffa8, BIP: Oxffff800000106e07| 
Oxtff180000014ffa8,RIP: FP 


ff80000014fe20, BSP: Oxffff80000014ffa8, BIP: Oxfff Bb 
180000014fe20 0xftft80000014ffa8,BIP:0xftftftf800000106dd 1] 加 


二 80000014ftq30 Oxffff80000014febO, BIP: Oxffff80000011dadl 
1180000014fe20 Oxfff180000014f1a8, RI 

£800000141e20, BSP: Oxf{1f80000014f4a8 ,BI 

180000014fe20 Oxfff180000014ffa8, BI] 

180000014fe20 

180000014fe20 ， xffft800000106de2| 
tf80000014fe20, BS QtEHe0O0O0 lat fas, x{fff800000106e07| 
f80000014fe20,BSP:0xfftft80000014ffa8， xf{ff800000106dd1| 
tf80000014fe20, BS 半生， 由 1 

090 人 


[a408 


Oxffff80000014f1a8, BIP: Oxffff800000106dd1| 

Oxfff180000014ffa8,RIP: Oxf{{i1800000106dd1| 

Oxtftt180000014tfa8,RIP: Oxi{tit800000106dd1| 

xffff800000106dedl| 

: ,BIP: Oxffff800000106dd]| 
:Oxffff80000014fe20,BSP: Oxffff80000014ffa8,RIP: Oxffff800000106de 
tfff80000014fe20,BSP: Oxffff80000014ffa8,RIP:Oxtiff800000106e07]| 
ffff80000014fe20,RSP: Oxffff80000014ffa8, BIP: Oxffff800000106df 


图 14-9 fork 函数 的 运行 效果 图 


Finit.bin( 应 用 程序 ) 复制 到 文件 


ox00000000,81| 


)0000 ,pat 


f800000154c00， 
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14.2.5 ”内 存 管理 的 基础 系统 调用 API 实现 


在 阅读 代码 清单 14-62 编 写 的 应 用 程序 源码 时 不 难 发 现 , 目前 应 用 
储 空间 只 能 从 栈 中 分 配 。 可 是 容量 有 限 的 栈 地 址 空间 只 能 用 于 保存 程序 的 临时 数据 ， 若 想 长 期 拥有 


程序 读 写 文件 时 使 用 的 数据 存 


一 块 数据 存储 空间 ， 最 理想 的 选择 不 是 采用 全 局 数据 空间 ， 而 是 从 堆 ( 动态 内 存 地 址 空间 ) 中 申请 
数据 存储 空间 。 那 么 ， 本 节 就 来 实现 动态 内 存 的 分 配 与 回收 函数 ， 表 14-7 和 表 14-8 是 POSIX 规 范 对 


它们 的 描述 
表 14-7 malloc 函 数 简介 表 
函数 名 void *malloc(size t size) 
功能 摘要 “| 分 配 一 块 内 存 空间 
头 文件 #include <stdlib.h> 
描述 分 配 一 块 大 小 为 size 的 空闲 内 存 空 
参数 size_t size a 容量 
返回 值 void * 如 果 执 行 成 功 ， 则 返回 空闲 内 存 空间 的 起 始 地 址 ; 否则 ， 返 回 NULL，errno 
变量 会 记录 错误 码 
错误 码 ENOMEM 内 存 不 足 
表 14-8 free 函数 简介 表 
函数 名 void free(void *ptr) 
功能 摘要 释放 内 存 空间 
头 文件 #include <stdlib.h> 
描述 释放 ptr 指 定 的 内 存 空 间 
参数 void *ptE 
返回 值 无 无 
错误 码 无 无 


堆 地 址 空间 是 动态 的 、 连 续 的 〈 线性 地 址 空间 连续 )， 它 只 能 从 底 向 上 单 向 生长 ， 因 此 堆 的 分 配 
与 回收 工作 主要 是 通过 调整 堆 的 结束 地 址 来 实现 。 虽 然 nalloc 和 free 是 一 对 功 角 


EE 相反 的 函数 ， 但 它 


们 对 应 的 系统 调用 API 处 理 函 数 名 却 同 为 sys_brlk 此 函数 的 作 } 


j 是 大 面积 扩展 或 


常 是 一 个 物理 页 ) 当 sys_brk 函 数 调整 完 堆 地 址 空间 后 ， malloc 和 fr 


回收 堆 地 址 空间 ( 通 


函数 再 做 进一步 内 存 分 配 或 


回收 工作 。 由 此 看 来 ,动态 内 存 的 分 配 与 回收 工作 主要 依靠 应 


动态 内 存 的 管理 代码 只 能 固化 在 malloc 和 free 函 数 中 。 


用 程序 自 


尽管 内 存 分 布 结构 体 struct mm_struct 已 拥有 记录 堆 地 址 空 
engd_pbrk, 但 系统 目前 尚未 给 堆 分 配 内 存 空 间 ， 那么 下 面 就 从 iale 内 核 线 程 开始 为 每 个 进程 都 建立 堆 


地 址 空间 。 


身 处 理 ， 为 了 达到 这 一 目的 ， 


间 的 成 员 变 


idle 作 为 系统 的 第 一 个 进程 ( 内 核 线程 )， 它 的 地 址 空间 分 布 情况 与 内 核 编译 


变量 start_pbrk 和 


F 过 程 息息相关 。 因 


此 struct Global _ Memory_Descriptor 结 构 体 特 做 出 调整 ， 将 原来 的 成 员 变 


start_brk 以 表示 堆 地 址 空间 的 起 始 地 址 ， 同 时 追加 成 员 变 量 engd_rodata 来 记录 只 读数 据 段 的 结束 


地 址 ， 代 码 清单 14-65 是 该 结构 体 改造 后 的 样子 。 


量 end i 
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代码 清单 14-65 ”第 14 章 \ 程 序 \ 程 序 14-8\ 物 理 平台 \kernel\memory.h 
struct Global Memory_Descriptor 


unsigned long start_code , end code , end data , end_ rodata , start_pbrk; 
unsigned long end of_struct; 
}; 


内 核 链 接 脚 本 在 设计 之 初 已 为 各 个 段 地 址 空间 指派 了 标识 符 ， 因 此 成 员 变 量 eng_rodata 和 
start_pbrk 的 初始 化 方法 与 其 他 变量 相同 ， 代 码 清单 14-66 是 这 两 个 变量 的 初始 化 细节 。 


代码 清单 14-66 ”第 14 章 \ 程 序 \ 程 序 14-&\ 物 理 平台 \kernel\main.c 
void Start_Kernel (void) 


unsigned long 
unsigned long 


memory_management_struct.start_code ( )& 
( )& 
(unsigned long)& _edata; 
( )& 
( )& 


memory_management_struct.end_code 
memory_management_struct.end data 
memory_management_struct.end rodata 
memory_management_struct.start_brk 


unsigned long 
unsigned long 


由 于 成 员 变 量 eng_brk 已 被 替换 为 start_pbrk， 从 而 函数 init_memory 和 slab_init 也 要 做 出 
相应 替换 。 
在 本 次 调整 过 程 中 还 发 现 , 全 局 变量 Global_cR3 的 作用 并 不 是 很 大 , 它 完全 可 由 局 部 变量 取代 。 
故 init_memory 、pagetable_init、IOAPIC_pagetable_remapb 以 及 frame_buffer_in 记 国 数 
内 的 全 局 变量 Global_cR3 将 修改 为 局 部 变量 。 
经 过 上 述 调 整 后 ， 下 面 将 为 iale 进 程 配 置 堆 地 址 空间 ， 整 个 配置 过 程 主要 是 对 init_mm 的 各 成 员 
变量 进行 数值 调整 ， 代 码 清 单 14-67 是 相关 成 员 变量 的 具体 调整 过 程 。 


代码 清单 14-67 第 14 章 \ 程 序 \ 程 序 14-&\ 物 理 平台 \kernel\task.c 


void task_ init() 


tart_rodata = (unsigned long)& rodata; 
init_mm.end_ rodata = memory_management_struct.end_ rodata; 


3 


init_mm.start_bss = (unsigned long)& bss; 
init_mm.end _ bss = (unsigned long)&_ ebss; 


init_mm.start_brk = memory_management_struct.start_brk; 
init_mm.end_ brk = current->addr_limit; 


代码 清单 14-67 将 iale 进 程 的 堆 地 址 空间 配置 为 _eng ( 内核 程 序 的 结尾 地 址 ) 至 
0xffffffffffffffff， 此 范围 几乎 覆盖 整个 内 核 层 地 址 空间 ， 又 因为 内 核 线程 是 共享 内 存 地 址 
空间 的 ， 这 使 得 所 有 内 核 线程 也 会 共享 堆 地 址 空间 。 
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随 着 init 内 核 线程 调用 dao_execve 函 数 执行 应 用 程序 ， 系 统 将 创建 出 应 用 层 的 第 一 个 进程 ， 
此 ao_execve 函 数 中 要 追加 堆 地 址 空间 的 配置 代码 ， 详 细 配置 内 容 如 代码 清单 14-68 。 
代码 清单 14-68 ”第 14 章 \ 程 序 \ 程 序 14-8\ 物 理 平台 \kernel\task.c 


unsigned long do_execve(struct pt_regs *regs,char *name) 
{ 


unsigned long code_start_addr = 0x800000; 
unsigned long stack_start_addr = 0xa00000; 
unsigned long brk_start_addr = 0xc00000; 


current->mm->start_brk = brk_start_addr; 
current->mm->end_brk = brk_start_addr; 


新 程序 的 执行 过 程 意味 着 一 个 新 的 开始 ， 此 时 进程 并 未 使 用 过 堆 地 址 空间 ， 也 就 无 需 分 配 堆 地 址 
空间 ， 直 至 进程 调用 malloc 类 函数 时 再 分 配 地 址 空间 即 可 ， 这 种 设计 可 有 效 缩短 进程 的 创建 时 间 和 
内 存 使 用 量 。 因 此 这 段 程序 只 为 进程 设置 堆 的 起 始 地 址 〈 位 于 线性 地 址 0xc00000 处 )。 

进程 的 克隆 过 程 往往 发 生 在 程序 的 执行 期 间 ， 那 么 进程 在 克隆 前 就 有 调用 malloc 类 函数 的 可 能 
性 ， 所 以 进程 在 克隆 内 存 地 址 空间 时 也 应 该 克隆 堆 地 址 空间 ， 代 码 清 单 14-69 负 责 实现 这 一 克隆 过 程 。 


代码 清单 14-69 ”第 14 章 \ 程 序 \ 程 序 14-8\ 物 理 平台 \kernel\task.c 


unsigned long copy_mm(unsigned long clone flags,struct task_ struct *tsk) 


unsigned long stack_start_addr = 0xa00000; 

unsigned long brk_start_addr = 0xc00000; 

memcpy ( (void *)code_start_adgdr,Phy_To_Virt (p->PHY_address),stack_ start_addr - 
code_start_addr); 


////copy user brk space 

if(current->mm->end_brk - current->mm->start_brk != 0) 

{ 

Phy_To_Virt((unsigned long *) ((unsigned long)newmm->pgd & (~ OxfffUL)) 

((brk_start_addr >> PAGE_GDT_SHIFT) & Oxlff)); 

Phy_To_Virt((unsigned long *) (*tmp & (~ OxfffUL)) + ((brk_start_addr >> 
PAGE_1G_SHIFT) & Oxlff)); 

tmp = Phy_To_Virt((unsigned long *) (*tmp & (~ OxfffUL)) + ((brk_start_addr >> 
PAGE_2M_SHIFT) & Oxlff)); 

p = alloc_pages (ZONE_NORMAL,1,PG_PTable_ Maped); 

set_pdt (tmp,mk_pdt (p->PHY_address, PAGE_USER_Page)); 


tmp 


I 1 时 


tmp 


memcpy ((void *)brk_start_addr,Phy_To_Virt (p->PHY_address),PAGE 2M_ SIZE); 


nat 
tsk->mm = newmm; 
return error; 
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这 段 代码 仅 克 隆 了 一 个 物理 页 的 内 存 空间 ， 这 对 于 目前 的 应 用 程序 已 经 足够 使 用 ， 读 者 可 根据 个 
人 需要 自行 修改 这 部 分 程序 。 

现在 ,进程 虽然 可 以 使 用 堆 地 址 空间 ,但 是 必须 借助 sys_brk 函 数 才 能 对 其 进行 管理 ， 代 码 
清单 14-70 便 是 sys_brk 函 数 的 程序 实现 。 


代码 清单 14-70 ”第 14 章 \ 程 序 \ 程 序 14-&\ 物 理 平台 \kernel\sys.c 


unsigned long sys_brk (unsigned long brk) 


{ 


unsigned long mew_brk = PAGE 2M ALIGN (brk); 


Color_printk (GREEN, BLACK, "sys_brk:%#018]x\n",brk); 

Color_printk (RED,BLACK, "brk:%#0181x,new_ brk:%#0181x,current->mm->end_brk: 
S$#0181x\n",brk,new_brk,current->mm->engd_brk); 

if (new_brk == 0) 
return current->mm->start_brk; 

if(new_brk < current->mm->end_brk) //release brk space 
return 0; 


new_brk = do_brk(current->mm->end_ brk,new_ brk - current->mm->end_brk); //expand 
//brk space 


Current->mm->end_brk = new_brk; 
return new_brk; 


} 

堆 地 址 空间 的 管理 主要 依靠 增 减 物理 页 实现 ， 以 至 于 函数 sys_brk 只 能 操作 以 物理 页 为 单位 的 地 
址 空间 ， 因 此 在 使 用 参数 brk 前 应 该 确保 参数 brk 的 数值 是 按照 物理 页 对 齐 的 。 随 后 ， 还 要 检测 页 对 
齐 后 的 变量 new_brk， 如 果 变 量 new_pbrk 的 值 为 0， 说 明 进 程 此 刻 希 望 获取 堆 的 起 始 地 址 ; 如果 其 值 
小 于 堆 的 结尾 地 址 ， 则 表示 进程 希望 释放 一 部 分 堆 地 址 空间 ( 暂 不 实现 为 如果 前 两 个 判断 条 件 都 不 
满足 ， 就 意味 着 进程 希望 扩展 堆 地 址 空间 ， 从 而 调用 函数 ao_brk。 

do_prk 函 数 的 主要 作用 是 为 指定 地 址 空间 分 配 页 表 项 ， 并 建立 页 表 映 射 关系 ,代码 清单 14-71 是 
此 函数 的 程序 实现 。 


代码 清单 14-71 第 14 章 \ 程 序 \ 程 序 14-8\ 物 理 平台 \kernel\memory.c 


unsigned long do_brk(unsigned long addr,unsigned long len) 


{ 


unsigned long * tmp = NULL; 
unsigned long * virtual = NULL; 
struct Page * p NULL; 
unsigned long i 0 


for(i = addr;i < addr + len;i += PAGE 2M_ SIZE) 
{ 
tmp = Phy_To_Virt((unsigned long *) ((unsigned long)current->mm->pgd & (~ 
OxfffUL)) + ((i >> PAGE_ GDT_ SHIFT) & 0xlff)); 
if(*tmp == NULL) 
Virtual = kmalloc (PAGE 4K_SIZE,0); 
memset (virtual,0,PAGE 4K_SIZE); 
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set_mpl4t (tmp,mk_ mpl4t (Virt_To_Phy (virtual),PAGE_ USER_GDT)); 
} 


tmp = Phy_To_Virt( (unsigned long *) (*tmp & (~ OxfffUL)) + ((i >> PAGE_1G_SHIFT) 
0):) 
if(*tmp == NULL) 
{ 
virtual = kmalloc (PAGE 4K_SIZE,0); 
memset (virtual,0,PAGE 4K_ SIZE); 
set_pdpt (tmp,mk_pdpt (Virt_To_Phy (virtual),PAGE_ USER_ Dir)); 
} 


tmp = Phy_To_Virt( (unsigned long *) (*tmp & (~ OxfffUL)) + ((i >> PAGE_ 2M_SHIFT) 
& Oxlff)); 
if(*tmp == NULL) 
{ 
p = alloc pages (ZONE_NORMAL,1,PG_ PTable Maped); 
if(p == NULL) 
return -ENOMEM; 
set_pdt (tmp,mk_pdt (p->PHY_address, PAGE_USER_Page)); 


} 


current->mm->end brk = i; 
flush tlb(); 
return i; 


} 

历经 内 存 地 址 空间 克隆 函数 copy_mm 的 实现 ， 相 信 理 解 d4o_brk 函 数 并 不 困难 。 这 里 只 请 读者 注 
意 ， 当 堆 地 址 空间 扩展 完毕 后 ， 页 表 结 构 必 须 刷新 才能 使 新 地 址 空间 生效 。 此 处 可 以 使 用 flush_t1lb 
刷新 全 部 页 表 ， 亦 可 使 用 flush_tlb_one 逐 个 刷新 新 增 地 址 空间 。 

在 sys_prk 函 数 实现 后 ， 我 们 还 需要 为 应 用 程序 编写 动态 内 存 的 分 配 与 回收 困 数 。 因 为 sys_brk 
是 系统 调用 API 的 处 理 函 数 ， 而 且 堆 地 址 空间 只 能 由 进程 自身 负责 管理 ， 那 么 动态 内 存 的 管理 代码 只 
能 编写 于 malloc 和 free 国 数 内 。 考 虑 到 管理 堆 地 址 空间 是 一 个 非常 繁琐 的 过 程 ， 此 处 仅 以 malloc 琢 
数 为 例 来 简 述 动态 内 存 的 分 配 过 程 ， 代 码 清单 14-72 是 mal1oc 函 数 的 程序 实现 。 


代码 清单 14-72 ”第 14 章 \ 程 序 \ 程 序 14-8\ 物 理 平台 \user\malloc.c 


static unsigned long brk_start address = 0; 

static unsigned long brk_ used address = 0; 

static unsigned long brk_end address = 0; 

#define SIZE_ALIGN (8*sizeof (unsigned long)) 


void * malloc(unsigned long size) 
{ 
unsigned long address = 0; 
if (brk_start_address == 0) 
brk_engd address = brk used address = brk_start_address = brk(0); 
if(brk_end_address <= brk used address + SIZE ALIGN + size) 
brk_engd _ address = brk(brk_ end_ address + ((size + SIZE_ ALIGN + PAGE_SIZE - 1) 
& ~(PAGE_SIZE - 1))); 
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address = brk_used address; 
brk_used address += size + SIZE_ALIGN; 


return (void *)address; 
} 


void free(void * address){} 


这 段 代 码 通过 三 个 全 局 变量 来 保存 堆 地 址 空间 的 起 始 地 址 、 当 前 使 用 地 址 、 结 尾 地址 。 在 进程 首 


次 申请 动态 内 存 时 ，malloc 函 数 会 先 向 brk 孙 数 ( sys_brk 函 数 的 应 用 层 人 口 程序 ) 传人 参数 0 来 取 
得 堆 地 址 空间 的 起 始 地 址 ， 紧 接着 ， 再 次 调用 brk 函 数 为 进程 扩展 堆 地 址 空间 ，brk 函 数 每 次 扩展 
PAGE_SIZE 大 小 。 然 后 ， 从 堆 地 址 空间 中 分 配 size 大 小 的 内 存 给 调用 者 ， 并 使 用 全 局 变量 
brk_used_addqress 来 标记 内 存 空间 使 用 量 。 

这 里 的 malloc 函 数 实现 了 一 个 简单 的 动态 内 存 分 配 功 能 ， 它 是 为 了 讲解 原理 而 实现 的 样 例 ， 读 
者 可 在 此 基础 上 自由 实现 内 存 分 配 算 法 ， 也 可 将 内 核 层 的 kmalloc 函 数 移植 过 来 。 

至 此 ，malloc 函 数 已 经 实现 ,下 面 将 进入 函数 测试 阶段 。 代 码 清单 14-73 是 malloc 函 数 的 测试 程 
序 ， 它 在 原 有 测试 程序 的 基础 上 加 入 malloc 函 数 ， 调 用 时 机 是 在 父 进程 创建 出 子 进程 以 后 ， 由 父 进 
程 调用 。 
代码 清单 14-73 ”第 14 章 \ 程 序 \ 程 序 14-&\ 物 理 平台 \usen\init.c 


int main() 


if(fork() = 0 
putstring("child process\n'"); 
else 
{ 
putstring("parent process\n'"); 
malloc(100); 
} 
while(1); 
return 0; 


} 

随 着 系统 代码 量 的 逐渐 增多 ， 一些 潜 在 的 问题 也 逐渐 暴露 出 来 。 像 一 直 让 我 们 头疼 的 
color_printk 也 数 自 旋 锁 问 题 , 虽 几 经 修改 , 但 效果 仍 不 尽 人 意 。 通过 对 Linux 内 核 相 关 源 码 的 剖析 、 
论证 以 及 数 十 次 测试 ， 最终 确定 问题 出 在 自 旋 锁 的 使 用 上 。 以 前 的 代码 只 在 中 断 使 能 ( 中 断 检 测 程序 
if (get_rflags() & 0x200UL) ) 时 才 会 使 用 自 旋 锁 , 这 种 带 有 选择 分 支 的 加 锁 代 码 会 在 程序 执行 
期 间 引发 死 锁 或 者 抢占 计数 值 非 零 的 现象 ， 从 而 导致 进程 无 法 被 调度 。 由 于 从 前 的 内 核 功 能 少 、 代 码 
量 小 ， 上 述 现象 几乎 不 会 发 生 , 但 是 随 着 内 核 不 断 引 入 新 功能 以 及 代码 量 的 不 断 上 涨 ， 这 种 小 概率 事 
件 逐 渐变 成 常见 现象 。 故 此 ， 我 们 特 将 选择 分 支 代码 (if 语句 ) 蔡 换 成 拥有 中 断 管理 能 力 的 自 旋 锁 ， 
请 看 代码 清单 14-74 对 自 旋 锁 程 序 的 调整 。 


代码 清单 14-74 ”第 14 章 \ 程 序 \ 程 序 14-8\ 物 理 平台 \kernel\printk.c 


int color_ printk(unsigned int FRcolor,unsigned int BKcolor,const char * fmt,...) 


{ 


Tt i 
nt CoOunt. se.05 
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Ti ce ,07 
unsigned long flags = 0; 
va_list args; 


spin_ lock_irgqsave(&Pos.printk_ lock,flags); 


spin unlock_irqrestore(&Pos.printk_ lock,flags); 


return i; 


} 


此 处 采用 的 函数 spin_lock_irgqsave 和 spin_unlock_irqrestore 可 在 自 旋 锁 加 锁 时 保存 当 
前 中 断 状 态 并 关闭 中 断 ， 而 在 自 旋 锁 解 锁 时 恢复 中 断 状 态 ， 代 码 清单 14-75 是 两 者 的 程序 实现 细节 。 


代码 清单 14-75 ”第 14 章 \ 程 序 \ 程 序 14-8\ 物 理 平台 \kernel\spinlock.h 


#define local_irqg save (x) asm 


cli":"=g" (x)::"memory") 
#define local_irqa restore (x) 
popfq"::"g" (x):"memory") 


asm__ 


#define local_irqa disable() (eo 加 肥 汪 信 及: 


#define local_irqg enable() 


sti(); 


#define spin_ lock_irgqsave(lock,flags) 


do 
{ 
local_irqg save (flags); 
spin_ lock(lock); 
}while(0) 


#define spin unlock_ irqrestore(lock,flags) 


do 
€ 
spin _ unlock (lock); 
local_irqg restore(flags); 
}while(0) 


#define spin lock_irg(lock) 
do 
{ 
local_irqg disable(); 
Spin lock(lock)':; 
}while(0) 
#define spin unlock_irgl(lock) 
do 
{ 
spin _ unlock (lock); 
local_irqg enable(); 
}while(0) 


__volatile ("pushfq ; popq $0 }; 


volatile _("pushg %$0 ，; 


2 i ee ew a oi er 


I rt 


宏 函 数 spin_lock_irqsave 可 在 自 旋 锁 加 锁 期 间 保存 RIEFLAGS 标 志 寄 存 器 值 并 禁止 中 嘱 而 调 


用 宏 函 数 spin_unlock_iraqrestore 将 在 自 旋 锁 解锁 后 强制 还 原 R 
这 段 代 码 还 加 入 spin_lock_irqd 和 spin_unlock_ira 两 个 宏 函数 以 备 不 时 之 需 ， 这 对 函数 的 功 


EFLAGS 标 志 寄 存 器 值 。 


能 相对 弱 一 些 ， 它 们 只 能 在 加 锁 和 解锁 过 程 


开关 


! 汤 。 对 于 像 color_printk 这 类 经 常 在 中 断 处 理 


程序 里 使 用 的 函数 ， 宏 函数 spin_lock_irqsave 和 spin_unlock_irqrestore 将 是 首选 。 
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随 着 内 核 功能 的 不 断 增 多 ， 为 了 在 系统 触发 异常 时 快速 锁定 问题 ， 只 显示 触发 异常 的 地 址 和 栈 指 


针 是 不 够 的 ， 往 往 异 常 信息 显示 得 越 丰 富 问 题 越 容易 发 现 。 那 么 ， 下 面 就 来 补充 完善 异常 处 理 函 数 ， 


使 其 显示 的 内 容 更 丰富 一 些 ， 见 代码 清单 14-76。 
代码 清单 14-76 第 14 章 \ 程 序 \ 程 序 14-&\ 物 理 平台 \kernel\trap.c 


void display_regs (struct pt_regs * regs) 


{ 


Color_printk (RED,BLACK, "CS:%#010x,SS:%S#010x\nDS:%#010x,ES:%#010x\nRFLAGS: 
S$#018]x\n",regs->cs,regs->ss,regs->ds,regs->es,regs->rflags); 

Color_printk (RED,BLACK, "RAX:%#0181x, RBX:%S#0181x, RCX:%#018]x,RDX:%#0181x\nRSP: 
$S#0181x,RBP:%S#0181x,RIP:%S#018l1x\nRSI:%S#0181x,RDI:%#0181x\n",regs->rax,regs->rbx, 
regs->rcx,regs->rdx,regs->rsp,regs->rbp,regs->rip,regs->rsi,regs->rdi); 

Color_printk (RED,BLACK,"R8 :%#0181x,R9 :%#018]lx\nR10:%#0181x,R11:%#0181x\nR12: 
S$#0181x,R13:%S#018]x\nR14:%#0181x,R15:%#0181x\n",regs->r8,regs->r9,regs->r10, 
regs->r1l1,regs->r12,regs->r13,regs->r14,regs->r15); 


} 


void do_divide error(struct pt_regs * regs,unsigned long error_code) 


{ 
Color_printk (RED,BLACK, "do_divide error(0),ERROR_ CODE:%#0181x,CPU:%#010x,PID: 


S$#010x\n",error_code,SsSMP_ cpu_id(),current->pid); 
display_regs (regs); 
while(1) 

也 于 外 全 这 


} 
这 段 代 码 以 #4DE 异 常 的 处 理 函 数 do_givigde_error 为 例 ， 描 述 异常 处 理 也 数 完善 后 的 样子 。 现 
在 ， 异 常 处 理 函 数 已 能 显示 struct pt_regs 结 构 体 记录 的 所 有 寄存 器 值 。 


在 补充 和 完善 了 这 么 多 内 容 后 ， 让 我 们 来 看 看 mal1oc 函 数 的 运行 效果 ， 见 图 14-10。 
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第 15 章 


经 过 对 POSIX 规 范 的 粗浅 学 习 和 系统 调用 API 的 简单 实现 后 ， 应 用 程序 已 能 够 在 系统 内 核 的 帮助 
下 实现 一 些 基 础 操作 。 本 章 将 在 此 基础 上 实现 Shell 命 令 解析 器 和 若干 基础 命令 ， 以 增强 操作 系统 的 功 
能 和 使 用 体验 。 此 举 不 仅 可 以 有 针对 性 地 实现 更 多 系统 调用 API、 扩 大 应 用 程序 对 系统 调用 API 的 测试 
范围 ， 而 且 还 为 操作 系统 引入 交互 功能 ， 可 谓 一 举 多 得 。 


15.1 Shell 命令 解析 器 


操作 系统 与 用 户 间 的 沟通 交流 工作 主要 由 交互 系统 负责 完成 ， 常 用 的 交互 系统 有 字符 交互 系统 
(或 称 终端 交互 系统 ) 和 图 形 交 互 系统 两 种 。 

字符 交互 系统 主要 由 命令 解析 器 和 命令 组 成 ， 其 优点 是 结构 简单 、 易 实现 、 可 扩展 性 强 ; 而 图 形 
交互 系统 则 由 窗口 管理 器 、 桌 面 环 境 、 系 统 工 具 等 一 系列 软件 组 成 ， 它 的 结构 昌 庞 大 而 复杂 ， 但 其 操 
作 简 单 、 易 学 习 、 易 使 用 等 优点 也 是 显而易见 的 。 鉴 于 系统 目前 的 图 形 处 理 能 力 有 限 ， 本 章 暂 且 实 现 
一 个 简单 的 字符 交互 系统 ， 待 时 机 成 熟 后 再 向 图 形 交 互 系统 移植 。 


15.1.1 Shell 命令 解析 器 概述 


字符 交互 系统 的 主体 程序 是 命令 解析 器 ， 它 的 作用 是 把 输入 设备 传送 来 的 数据 解析 成 对 应 的 命令 
并 加 以 执行 。 命 令 解析 器 大 体 上 由 环境 初始 化 、 数 据 读 取 、 数 据 解析 和 命令 执行 4 部 分 组 成 。 以 常用 
的 Shell 命 令 解析 器 为 例 ， 图 15-1 描 绘 了 Shell 命 令 解析 器 的 软件 结构 和 执行 流程 。 


互 
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了 环 培 初 始 化 


Shell 


图 15-1 Shell 命令 解析 器 的 流程 


多 
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从 图 15-1 中 可 以 看 出 ，Shell 命 令 解 析 器 的 核心 代码 是 一 个 循环 体 ， 当 解析 器 初始 化 完毕 后 ， 它 将 
进入 无 限 循环 状态 。Shell 命 令 解 析 器 在 循环 状态 下 会 不 停 地 解析 键盘 输入 的 数据 ， 并 从 数据 中 检索 出 
与 之 相 匹配 的 命令 加 以 执行 。 以 下 步 又 是 Shell 命 令 解析 器 的 详细 执行 流程 。 

(1) 为 命令 解析 器 初始 化 运行 环境 ， 随 后 进入 无 限 循环 状态 。 

(2) 读 取 键 盘 输入 的 数据 。 

(3) 解析 输入 数据 ， 寻 找 与 之 相 匹配 的 命令 。 

(4) 执行 命令 并 将 参数 ( 如 果 输 入 数据 中 带 有 命令 参数 ) 传人 其 中 。 

(5) 等 待命 令 执 行 结束 ， 跳 转 至 步 又 (2)。 

其 实 ，POSIX 规 范 已 对 Shell 命 令 解析 器 进行 了 非常 细致 的 描述 ， 但 是 这 个 描述 过 于 复杂 ， 这 里 只 
能 据 弃 POSIX 规 范 的 指导 , 自行 实现 一 个 Shell 命 令 解析 器 。 感 兴趣 的 读者 可 遵照 POSIX 规 范 自行 实现 。 


15.1.2 实现 Shell RD 命令 解析 器 


通过 对 Shell 命 令 解析 器 的 综合 介绍 ， 本 节 将 根据 15.1.1 节 介绍 的 知识 编写 一 个 Shell 命 令 解析 器 。 
为 了 实现 Shell 命 令 解 析 器 ， 这 里 不 仅 需要 在 应 用 层 编写 命令 解析 程序 ， 还 需要 虚拟 文件 系统 和 键盘 驱 
动 程序 等 内 核 模块 的 全 力 支 持 ， 看 来 这 又 是 一 个 漫长 的 过 程 。 下 面 就 将 其 分 为 多 个 阶段 逐步 实现 。 

1. bug 修 正 

读者 可 曾 想 过 ， 为 什么 本 系统 在 加 入 抢占 功能 后 ， 进 程 的 抢占 速度 依然 如 此 之 慢 ? 而 且 ， 感 觉 只 
有 时间 片 到 期 时 系统 才 会 调度 进程 ， 貌 似 其 他 抢占 时 机 从 未 生效 过 。 经 过 一 番 代 码 分 析 和 查阅 ， 发 现 
这 种 现象 是 由 于 NEED_SCHEDULE 标 志 位 的 抢占 日 标 设置 有 误 而 造成 的 ， 代 码 清单 15-1、 代 码 清单 15-2 
和 代码 清单 15-3 是 修正 后 的 抢占 程序 。 


代码 清单 15-1 第 15 章 \ 程 序 \ 程 序 15- 八 物理 平台 \kernel\disk.c 


void end_ request (struct block_ buffer node * node) 


node->wait_queue.tsk->state = TASK_RUNNING; 
insert_task_queue (node->wait_ queue.tsk); 

// node->wait_queue.tsk->flags |= NEED_SCHEDULE; 
current->flags |= NEED_SCHEDULE; 


当 eng_request 函 数 处 理 完 硬 盘 中 断 请 求 后 ,等 待 数 据 的 进程 便 可 以 继续 执行 ， 所 以 等 待 数 据 的 
进程 应 该 抢占 当前 进程 ， 故 当前 进程 的 NEED_SCHEDULE 标 志 位 要 置 位 。 

图 数 wakeup_process 在 唤醒 目标 进程 时 ， 也 应 该 置 位 当前 进程 的 NEED_ScHEDULE 标 志 位 以 使 目 
标 进 程 早日 执行 。 


代码 清单 15-2 第 15 章 \ 程 序 \ 程 序 15- 八 物理 平台 \kernel\task.c 


inline void wakeup_process (struct task_struct *tsk) 


{ 


tsk->state = TASK_RUNNING; 
insert_task_queue (tsk); 
current->flags |= NEED_SCHEDULE; 
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信和 号 量 在 释放 资源 时 会 唤醒 等 待 中 的 进程 ， 其 中 的 __up 函 数 负责 唤醒 进程 ， 那 么 在 唤醒 过 程 中 
NEED_SCHEDULE 标 志 位 也 应 该 置 位 以 使 进程 尽早 执行 。 


bh 


代码 清单 15-3 ”第 15 章 \ 程 序 \ 程 序 15- 八 物理 平台 \kernel\semaphore.c 
void _ up(semaphore _ T * semaphore) 


insert_task_ queue (wait->tsk); 
current->flags |= NEED_SCHEDULE; 
} 


经 过 这 三 处 代码 修正 后 , 本 系统 的 各 抢占 点 均 可 达到 预期 的 抢占 效果 , 它 现 在 的 运行 速度 可 用 “ 闪 
电 般 ”来 形容 。 

2. 键盘 驱动 程序 

为 了 让 Shell 命 令 解 析 器 能够 操作 键盘 设备 ， 现 在 必须 设计 一 套 可 被 应 用 程序 访问 的 设备 驱动 模 
型 。 早 在 14.2.3 贡 中 曾经 向 读者 透露 过 ， 应 用 程序 可 以 借助 文件 描述 符 的 操作 方法 向 设备 收发 数据 。 
其 实 ，Linux 内 核 就 是 通过 文件 描述 符 将 应 用 程序 与 设备 驱动 紧密 联系 在 一 起 ， 可 以 说 这 完全 是 虚拟 
文件 系统 的 功劳 。 

在 Linux 系 统 中 ,设备 文件 是 应 用 程序 与 设备 间 的 纽带 ， 应 用 程序 借助 系统 调用 API 访 问 设备 文 
件 ， 从 而 执行 设备 驱动 在 虚拟 文件 系统 中 设置 的 操作 方法 。 因 此 ， 本 节 的 编程 目标 共有 两 个 ,一 个 是 
重新 设计 键盘 驱动 程序 ， 使 其 能 够 与 虚拟 文件 系统 相关 联 ; 另 一 个 是 在 文件 系统 中 创建 键盘 设备 文 
件 ， 使 应 用 程序 可 通过 访问 键盘 设备 文件 来 操作 键盘 设备 。 

@ 编写 键盘 驱动 程序 

本 次 设计 的 键盘 驱动 程序 将 主要 围绕 文件 描述 符 的 操作 方法 结构 体 struct file_operations 
进行 编码 ， 代 码 清单 15-4 是 为 键盘 驱动 程序 创建 的 操作 方法 结构 体 。 


代码 清单 15-4 ”第 15 章 \ 程 序 \ 程 序 15-1T\ 物 理 平 台 \kernel\keyboard.c 


struct file operations keyboard_ fops = 


{ 


.open = keyboard_open, 
.Close = keyboard_ close, 
.ioctl = keyboard_ ioctl, 
.read = keyboard_ read, 
.write = keyboard write, 


} 
该 结构 体 中 的 open 和 close 操 作 方 法 的 作用 相同 ， 都 是 为 了 清空 键盘 缓冲 区 里 的 数据 。open 操 
作 方 法 是 为 了 在 操作 键盘 前 清空 缓冲 区 ， 而 close 操 作 方 法 则 是 在 放弃 使 用 键盘 后 释放 键盘 缓冲 区 中 
的 脏 数 据 ， 具 体 实现 如 代码 清单 15-5。 


代码 清单 15-5 ”第 15 章 \ 程 序 \ 程 序 15-1\ 物 理 平台 \kernel\keyboard.c 


long Keyboardq_open(struct index node * inode,struct file * filp) 
{ 

filjp->private_data = p_kb; 

p_kb->p_head = p_kb->buf; 
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D_kb->p_tail = p_kb->buf; 


p_kb->count = 0; 
memset (p_kb->buf,0,KB_BUF_SIZE); 
return 1; 


} 
long keyboard close(struct index node * inode,struct file * filp) 
{ 

filp->private_data = NULL; 

p_kb->p_head = p_kb->buf; 

pP_kb->p_tail = p_kb->buf; 


p_kb->count = 0; 
memset (p_kb->buf,0,KB_BUF_SIZE); 
return 1; 


} 
long keyboard_ ioctl(struct index node * inode,struct file * filp,unsigned long 
cmd,unsigned long arg) 
{ 
Switch (cmd) 
{ 
Case KEY_CMD_ RESET_BUFFER: 
p_kb->p_head = p_kb->buf; 
pP_kb->p_tail = p_kb->buf; 


p_kb->count = 0; 
memset (p_kb->buf,0,KB_BUF_SIZE); 
break; 
default: 
break; 
} 
return 0; 


} 

代码 清单 15-4 中 的 ioct1 操 作 方 法 用 于 控制 设备 功能 的 开启 与 关闭 ， 也 就 是 说 代码 清单 15-5 中 的 
keyboard_ioct1 消 数 用 于 控制 键盘 设备 ， 目 前 此 也 数 只 有 清空 键盘 缓冲 区 的 功能 。 在 编写 应 用 程序 
时 ， 只 需 向 ioct1 系 统 调 用 API 发 送 命令 KEY_CMD_RESET_BUFFER 即 可 清空 键盘 缓冲 区 ， 和 希望 读者 参 
照 cpen 、read 等 系统 调用 API 自 行 实现 ioct1l。 

对 于 键盘 设备 而 言 ， 它 的 主要 作用 是 向 系统 发 送 键盘 扫描 码 ， 操作 系 统 可 借助 read 操 作 方法 从 键 
盘 缓 冲 区 ( 由 键盘 驱动 程序 负责 维护 ) 中 读 取 键盘 发 送 来 的 数据 。 代 码 清单 15-6 中 的 keyboarg_read 
函数 即 是 *ead 操 作 方 法 的 处 理 函 数 实 现 ， 而 keyboara_write 国 数 自然 是 write 操作 方法 的 处 理 函 数 
实现 ， 但 是 系统 并 不 会 向 键盘 设备 发 送 数据 ， 因 此 write 操作 方法 的 处 理 函 数 没 有 实体 功能 。 


代码 清单 15-6 ”第 15 章 \ 程 序 \ 程 序 15-1\ 物 理 平台 \kernel\keyboard.c 


long Keyboardq_readq(struct file x filp,char * buf,unsigned long count ,Long * position) 


{ 


long counter = 0;，; 
unsigned char * tail = NULL; 


if(p_kb->count == 

sleep_on(&keyboard wait_ queue); 
Counter = p_kb->count >= count? count:p_kb->count; 
tail = p_kb->p_tail; 
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if(counter <= (p_kb->buf + KB_BUF_SIZE - tail)) 
t 
Copy_to_user (tail,buf,counter); 
pP_kb->p_tail += counter; 
} 
else 
人 
Copy_to_user (tail,buf, (p_kb->buf + KB_BUF_SIZE - tail)); 
Copy_to_user (p_kb->p_head,buf,counter - (p_kb->buf + KB_BUF_SIZE - tail)); 
pP_kb->p_tail = p_kb->p_head + (counter - (p_kb->buf + KB_BUF_SIZE - tail)); 


} 

p_kb->count -= counter; 

return counter; 
} 
long keyboard write(struct file * filp,char * puf,unsigned long count,1long * position) 
{ 

return 0; 


} 

孙 数 keyboard_read 会 先 检 测 键 盘 缓 冲 区 中 的 剩余 数据 量 。 如 果 缓 冲 区 为 空 ， 则 调用 sleep_on 
困 数 将 当前 进程 休眠 ， 待 键盘 设备 有 数据 传人 时 再 将 其 唤醒 。 如 果 缓 冲 区 中 存在 数据 ,那么 将 数据 复 
制 到 应 用 层 缓冲 区 中 ， 并 返回 已 读 取 数据 长 度 。 函 数 中 的 代码 counter = p_kb->count >= count? 
count :p_kb->count ;用 于 计算 可 向 应 用 程序 传输 的 数据 长 度 , 而 且 数 据 传输 过 程 还 会 根据 缓冲 区 游 
标 tail 的 位 置 分 为 两 种 传输 过 程 。 

这 段 代码 中 的 sleep_on 函 数 使 用 了 全 局 变量 keypoara_wait_dqueue， 该 变量 定义 于 代码 
清单 15-7 内 ， 它 是 一 个 进程 等 待 队 列 头 ，sleep_on 函 数 会 把 待 挂 起 的 进程 保存 在 这 个 队列 中 。 
而 键盘 中 断 处 理 函 数 keyboard_hangdler 中 的 wakeup 函 数 则 与 sleep_on 函 数 功 能 相反 , 用 于 唤 
醒 挂 载 于 全 局 变量 keyboarq_wait_cueue 里 的 进程 。 


代码 清单 15-7 ”第 15 章 \ 程 序 \ 程 序 15-1\ 物 理 平台 \kernel\keyboard.c 


struct Keyboardq_inputbuffer * p_kb = NULL; 
wait_queue_T keyboard wait_queue; 
void keyboard_ handler (unsigned long nr, unsigned long parameter, struct pt_regs * regs) 


wakeup (&keyboard wait_queue,TASK_ UNINTERRUPTIBLE); 
} 


等 待 队列 keyboargd_wait_queue 必 须 经 过 wait_queue_init 函 数 的 初始 化 才能 使 用 ， 代 码 
清单 15-8 是 等 待 队 列 的 相关 函数 实现 ， 这 其 中 就 包括 wait_queue_init 函 数 。 从 这 段 代码 中 可 以 
看 出 等 待 队列 与 信号 量 的 实现 比较 相似 ， 更 准确 地 说 ， 信 和 号 量 是 在 等 待 队 列 的 基础 上 实现 的 。 鉴 于 
等 待 队 列 相 比 信号 量 更 加 灵活 ， 可 以 应 用 于 诸多 场景 ， 本 节 已 将 等 待 队列 从 信和 号 量 中 分 离 出 来 ， 等 
待 队列 将 变 成 一 个 独立 的 功能 ， 经 过 信号 量 的 学 习 与 实现 ， 相 信 这 些 函 数 不 难 理解 。 


代码 清单 15-8 ”第 15 章 \ 程 序 \ 程 序 15- 八 物理 平台 \kernel\waitqueue.c 


void wait_queue_ init (wait queue_T * wait queue,struct task_struct *tsk) 


{ 


15.1 Shell 命令 解析 器 631 


list_init(&wait queue->wait_list); 
wait_ queue->tsk = tsk; 
} 
void sleep_on(wait_ queue_T * wait_queue. head) 


{ 


wait_queue_T wait; 
wait_queue_ init (&wait,current); 
current->state = TASK_UNINTERRUPTIBLE; 
list_adqd to _ before(&wait queue head->wait_ list,é&wait.wait_ list); 
schedule (); 
} 
void interruptible sleep_on(wait_ queue_T *wait_queue_head) 


{ 


wait_queue_T wait; 
wait_ queue_ init (&wait,current); 
Current->state = TASK_INTERRUPTIBLE; 
list_adqd to _ before(&wait_ queue head->wait_ list,é&wait.wait_ list); 
schedule (); 
} 
void wakeup (wait_queue_T * wait_ queue head,long state) 
{ 
wait_queue_T * wait = NULL; 
if(list_is_ empty (&wait_ queue head->wait_list)) 
return; 
wait = container_of (list next (&wait_ queue head->wait_list),wait_ queue_T, 
wait_list); 
if (wait->tsk->state & state) 


list_del (&wait->wait_list); 
wakeup_process (wait->tsk); 


} 
等 待 队 列 keyboard_wait_queue 的 初始 化 代码 位 于 keyboard_init 聘 数 的 起 始 处 ， 代 码 清 
单 15-9 是 其 初始 化 过 程 的 程序 实现 。 


代码 清单 15-9 第 15 章 \ 程 序 \ 程 序 15- 八 物理 平台 \kernel\keyboard.c 


void keyboard_ init() 
{ 
struct IO_APIC_RET_entry entry; 
unsigned long i,j; 
wait_queue_ init(&keyboard wait_queue,NULL); 
register_irq(0x21, &entry , &keyboard handler, (unsigned long)p_kpb, 
&keyboard_int_ controller, "ps/2 keyboard"); 
} 


至 于 原 键盘 驱动 程序 里 的 analysis_keycode、 get_scancode, shift_1、 shift_r, ctrl_1、 
Ctrl ER Lt Ls lt Es pausebreak_scode 以 及 keycode_map_normal 等 隐 数 和 变量 ， 它们 主 
要 用 于 解析 扫描 码 ， 这 部 分 功能 现 已 迁移 至 应 用 层 。 同 时 ， 不 要 忘记 注释 掉 analysis_keycode 函 数 
在 内 核 主 程序 中 的 调用 代码 ， 具 体 注释 位 置 请 参见 代码 清单 15-10。 
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代码 清单 15-10 ”第 15 章 \ 程 序 \ 程 序 15- 八 物理 平台 \kernel\main.c 
void Start_Kernel (voigd) 


while(1) 

{ 

// if (p_kb->count) 

// analysis_keycode(); 


至 此 ,一 个 键盘 驱动 程序 已 基本 实现 ,但 为 了 使 应 用 程序 能 够 访问 设备 文件 ， 也 为 了 让 FAT32 文 
件 系统 支持 设备 节点 功能 ， 接 下 来 还 需要 建立 驱动 程序 与 设备 文件 的 连接 ， 即 把 驱动 程序 的 操作 方法 
绑 定 到 设备 文件 的 文件 描述 符 中 ， 这 个 绑 定 过 程 需要 借助 sys_open 函 数 来 实现 。 如 果 sys_open 困 数 
打开 的 目标 文件 的 目录 项 类 型 为 设备 ， 那 么 虚拟 文件 系统 会 将 keyboarq_fops 操 作 方 法 结构 绑 定 到 
目标 文件 描述 符 中 ， 代 码 清单 15-11 是 这 部 分 功能 的 代码 实现 。 


代码 清单 15-11 第 15 章 \ 程 序 \ 程 序 15-1T\ 物 理 平 台 \kernelvsys.c 


unsigned long sys_open(char *filename,int flags) 


filp->dentry = dentry; 
filp->mode = flags; 
if(dentry->dir_inode->attribute & FS_ATTR_ DEVICE) 
filp->f_ops = &keyboard_ fops; ////// find device file operation function 
else 
filp->f_ops = dentry->dir_ inode->f_ops; 
if (filp->f_ops && filp->f_ops->open) 
error = filp->f_ops->open(dentry->dir_ inode,filp); 


这 有 段 程序 中 的 宏 常 量 FS_ATTR_DEVICE 表 示 目 录 项 类 型 为 设备 文件 。 在 path_walk 函 数 调 用 索引 
节点 的 lookup 操 作 方法 搜索 目标 文件 时 ，FAT32 文 件 系 统 会 对 目录 项 进行 类 型 检测 。 考 虑 到 FAT32 文 
件 系统 的 目录 项 并 不 支持 设备 文件 类 型 ， 所 以 只 能 另辟蹊径 借助 FAT32 文 件 系 统 的 某 个 保留 位 来 表示 
设备 文件 。 经 过 一 番 冥 思 昔 想 后 ， 发 现 FAT32 文 件 系 统 的 FAT 表 项 虽 为 32 位 宽 ， 但 只 有 低 28 位 是 有 效 
位 ， 高 4 位 保留 使 用 ， 而 且 在 文件 系统 使 用 期 间 这 4 位 的 数值 不 会 更 改 。 那 么 ， 用 这 4 位 数值 来 表示 设 
备 文件 再 合适 不 过 了 ， 代 码 清 单 15-12 是 追加 的 设备 文件 检索 代码 。 


代码 清单 15-12 ”第 15 章 \ 程 序 \ 程 序 15- 才 物理 平台 \kernel\fat32.c 


struct dir_ entry * FAT32_lookup(struct index_ node * parent_inode,struct dir_ entry * 
dest_dentry) 


if((tmpdentry->DIR_FstClusHI >> 12) && (p->attribute & FS_ATTR_FILE)) 
p->attribute |= FS_ATTR_ DEVICE; 
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} 

dest_dentry->dir_inode = p; 
kfree (buf); 

return dest_dentry; 


} 

从 这 段 代 码 可 知 ， 当 目录 项 结构 的 成 员 变 量 DIR_FstclusHI (起 始 复 号 的 高 16 位 ) 的 高 4 位 数值 
不 为 0 时 ， 说 明 该 目录 项 描述 的 是 一 个 设备 文件 ， 那 么 其 将 标识 为 Fs_ATTR_DEVICE 类 型 。 经 过 此 番 
修改 ， 应 用 程序 便 可 使 用 open、close、read、write、ioct1 等 系统 调用 API 操 作 键 盘 设 备 。 

@ 创建 键盘 设备 文件 

现在 , 内 核 程序 已 准备 就 绪 ， 下 面 将 为 键盘 驱动 程序 创建 设备 文件 , 创建 设备 文件 的 方法 有 两 种 ， 

种 是 通过 磁盘 管理 软件 强制 修改 设备 文件 的 目录 项 ， 另 一 种 是 通过 编写 程序 把 普通 文件 修改 为 设备 
文件 。 对 于 第 一 种 方法 ， 读 者 可 依据 第 13 章 讲述 的 知识 进行 实践 ， 此 处 重点 讲解 一 下 如 何 编写 程序 修 
改 来 普通 文件 。 

当 名 为 KEYBOARD .DEV 的 空 文件 在 文件 系统 中 创建 后 ， 只 需 在 代码 清单 14-2 的 基础 上 稍 作 调整 即 
可 使 测试 程序 在 打开 KEYBOARD .DEV 文件 期 间 改 变 目录 项 结构 的 相关 数值 。 代 码 清单 15-13 是 open 函 
数 的 测试 程序 ， 现 在 我 们 用 它 来 打开 键盘 设备 文件 。 


代码 清单 15-13 ”第 15 章 \ 程 序 \ 程 序 15-T\ 创 建设 备 文件 \task.c 


void user_level_function() 


{ 


int errno = 0; 
]= 


char stringl "/KEYBOARD .DEV"; 


当 open 系 统 调用 API 进 入 内 核 层 后 , 系统 调用 API 处 理 郴 数 svs_open 将 通过 path_walk 函 数 找寻 
目标 文件 。 一 旦 找到 目标 文件 ，path_walk 函 数 就 将 其 相关 结构 返回 给 sys_open 函 数 。 随 后 再 使 用 
代码 清单 15-14 修 改 目 标 文件 的 起 始 徐 号。 
代码 清单 15-14 ”第 15 章 \ 程 序 \ 程 序 15-T\ 创 建设 备 文件 \sys.c 


unsigned long sys_open(char *filename,int flags) 


Color_printk (BLUE,WHITE, "sys_open write device cluster to file\n"); 


if(dentry == NULL) 
return -ENOENT; 
if(dentry->dir_inode->attribute == FS_ATTR_DIR) 


return “ELISDIR 


((struct FAT32_inode_ info *) (dentry->dir_inode->private_ index_info))-> 
first_cluster |= 0xf0000000; 
dentry->dir_inode->sb->sb_ops->write_ inode (dentry->dir_inode); 


当 起 始 簇 号 修改 完毕 后 ,再 调用 write_inode 操 作 方法 将 设备 文件 的 目录 项 回 写 到 磁盘 扇 区 中 。 
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请 读者 在 程序 运行 后 ， 务 必 使 用 磁盘 管理 软件 验证 KEYBOARD.DEV 文 件 的 目录 项 是 否 修改 成 功 。 

@ 键盘 驱动 测试 程序 

键盘 驱动 测试 程序 比较 容易 实现 ， 只 需 借 助 标准 格式 化 输出 和 文件 操作 两 类 系统 调用 API 就 能 设 
计 出 一 个 键盘 驱动 测试 程序 ， 代 码 清单 15-15 是 测试 程序 的 主 函 数 。 


代码 清单 15-15 ”第 15 章 \ 程 序 \ 程 序 15- 才 物理 平台 \usen\init.c 


int main() 


{ 


= "/KEYBOARD.DEV"; 


= open(path,0); 
EU E00 
while (fqd0--) 
{ 
key = analysis_keycode (fd1); 
if (key) 
DELIntE (L(tKTO) Key) 
} 
close (fd1); 


while(1); 
return 0; 


} 

从 main 隐 数 来 看 测试 程序 并 不 复杂 , 它 的 任务 只 是 不 停 地 从 键盘 缓冲 区 中 读 取 数据 而 已 。 其 中 的 
函数 analysis_keycodqe 用 于 读 取 和 解析 键盘 发 送 来 的 数据 ,该 函数 是 从 原 键 盘 驱 动 程序 迁移 至 此 处 
的 。 同 时 ,为 了 使 其 能 够 与 应 用 层 的 系统 调用 API 相 衔接 ， 这 里 还 特意 对 analysis_keycode 函 数 及 
其 附属 函数 get_scancode 做 出 如 下 修改 ， 见 代码 清单 15-16。 


代码 清单 15-16 ”第 15 章 \ 程 序 \ 程 序 15- 才 物理 平台 \usen\init.c 


unsigned char get_scancode(int fqd) 


unsigned char ret = 0; 
read (fqd, &ret,1); 
return ret; 


int analysis_keycode(int fqd) 


unsigned char x = 0; 
X = get_scancode (fqd); 
if(x == OxE1) //pause break; 
上 
key = PAUSEBREAK; 
for(i = 1;i<6;i++) 
if(get_scancode(fd) != pausebreak_scodel[i]) 
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case 0x01: //ESC 
key = 0; 
break; 


case 0x0e: //BACKSPACE 
key = '\b'; 
break; 


case 0x0f: //TAB 
key = '\t'; 
break; 


case 0x1lc : / /ENTER 
key = '\n'; 


if (key) 
return key; 


return 0; 


} 

代码 清单 15-16 中 的 函数 get_scancogde 用 于 读 取 键盘 发 送 来 的 数据 ( 键盘 扫描 码 )， 一 旦 函数 
analysis_keycode 收 到 键盘 扫描 码 就 立即 进入 扫描 码 解 析 阶 段 。 这 里 的 扫描 码 解析 程序 是 在 原 有 代 
码 基 础 上 追加 ESC、BACKSPACE 、TAB 以 及 ENTER 等 按键 的 解析 逻辑 ， 使 得 它们 被 按 下 时 printf 
函数 可 显示 出 相应 的 效果 。 

测试 程序 里 的 printf 函 数 是 从 printk 函 数 移植 而 来 ， 它 的 加 入 不 单 是 为 了 显示 按键 效果 ， 也 为 
了 让 测试 程序 的 形态 逐渐 向 Shell 命 令 解析 器 靠近 。 表 15-1 是 POSIX 规 范 对 printf 艺 数 的 基本 描述 ,其 
中 的 参数 format 可 支持 -、+、#、0、hh、h、1、11、j、z、t、 Ld i、o、u、 x.、 X、 f、 F、e、 
E、g、G、a、A、c、s、p、n、% 等 格式 符 。 目 前 的 printf 函 数 仍 沿用 printk 支 持 的 格式 符 ， 读 者 
可 根据 个 人 需要 自行 补充 格式 符 的 代码 实现 。 由 于 函数 sprintf 和 vsprintf 的 功能 与 printf 函 数 十 
分 相似 ， 此 处 便 将 它们 一 并 实现 。 


表 15-1 printf/sprintf/vsprintf 函 数 简介 表 


函数 名 int printf(const char *restrict format, ...) 
int Sprintt (ehar *restriot 8 CONnst. char. *restrict. formaty. a 0) 
int vsprintf (char *restrict s, const char *restrict format, va_list ap) 


功能 摘要 格式 化 输出 
头 文件 #include <stdio.h> 


描述 这 些 函 数 将 把 参数 转换 或 格式 化 成 字符 上 显示 到 输出 设备 上 或 保存 到 数据 缓冲 区 中 


好 
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( 续 ) 

参数 char *restrict s 格式 化 输出 数据 缓冲 区 

const char *restrict format 格式 化 字符 串 

eb ob 可 变 参 数列 表 
返回 值 0 如 果 执行 成 功 , 则 返回 输出 字 节 数 ; 否则 , 返回 负 值 , errno 

变量 会 记录 错误 码 

错误 码 。 | BINTR 在 西数 执行 期 间 被 信号 打 断 

ENOMEM 


内 存 不 足 


函数 vsprintf 主 要 用 于 解析 格式 符 ， 它 直接 从 内 核 层 复制 得 来 ， 无 需 任 何 改动 ， 但 为 了 确保 


vsbprintf 函 数 能 够 得 到 基础 库 函 


数 (例如 : strlen、strcat、memcpy、memset 等 函数 ) 的 支持 ， 


同时 也 为 了 给 今后 使 用 基础 库 函 数 带 来 方便 ,这 里 已 将 内 核 层 的 基础 库 函 数 复制 到 应 用 层 的 


iom mb ote c 文 件 里 。 困 数 Print 
的 sprintf 孙 数 可 将 vsprintf 解 析出 的 字符 上 
据 通 过 put string 系 统 调 用 API 显 示 在 


代码 清单 15-17 


{ 


第 15 章 \ 程 序 \ 程 序 15- 八 物理 平台 \user\printf.c 


int Sprintf (char: “Duf const. char * fmty, ws) 


Tit Ut 0 
va_list args; 


va_start (args, fmt); 

OUnt Ss "veprimtf(buf fnt, ratogs)s 
va_end (args); 

return count; 

printf(const char *fmt, ...) 
char buf[1000]; 

GUEST 0% 

va_list args; 

va_start (args, fmt); 

eoUntb a Meprimnttf (hut nt "args): 


va_end(args); 
putstring (buf); 


return count; 


} 


E 和 sprintf 则 是 由 vsprintf 函 数 结合 不 同 功 能 再 次 封装 
保存 到 数据 缓冲 区 中 ， 而 printf 函 数 则 将 
屏幕 上 ， 代 码 清 单 15-17 是 这 两 个 函数 的 程序 实现 。 


ji 成， 其 中 
妈 析 出 的 数 


运行 测试 程序 ， 通 过 比 对 下 压 的 按键 和 显示 的 键 值 便 可 验证 键盘 驱动 程序 ， 图 15-2 是 键盘 驱动 测 


试 程序 的 大 致 运行 效果 。 
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mpt_count : 


k redirection ent 
600000 


x000000011e60000( 


rt_br fff800000154c40,end_o 


图 15-2 ”键盘 驱动 测试 程序 运行 效果 图 


3. Shell 命 令 解 析 程 序 
Shell 命 令 解 析 带 是 在 键盘 驱动 测试 程序 的 基础 上 参照 图 15-1 描 述 的 软件 架构 实现 的 ， 代 码 清 
单 15-18 是 解析 器 的 主 函数 。 其 中 ,解析 器 的 环境 初始 化 部 分 位 于 主 函 数 的 循环 体 前 ， 这 部 分 程序 
使 用 全 局 变量 current_gdir 来 记录 解析 器 的 当前 路 径 ， 在 初始 化 阶段 已 将 全 局 变量 
current_gdir 设 置 为 文件 系统 的 根 目录 。 与 此 同时 , 为 了 给 后 续 的 键盘 扫描 码 读 取 工作 提供 操作 
句柄 ， 环 境 初始 化 代码 还 打开 了 键盘 驱动 的 设备 文件 。 


代码 清单 15-18 ”第 15 章 \ 程 序 \ 程 序 15-2\ 物 理 平台 \usen\init.c 


int main() 


| 


{ 
int. Ed S03 
unsigned char puf[256] = {0}; 
char path[] = "/KEYBOARD.DEV"; 
int index = -1; 
EuUrrnent dlr eA 


fd = open(path, 0); 


while(1) 

{ 
Lin EGG = 0 
har  ** argv = NULE:} 
printf ("[SHELL]#:"); 
memset (buf,0,256); 
read_line (fd,buf); 
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和 于 (人 
index = parse_command (buf, &argc, &argv);} 


if(index < 0) 

printf("Input Error,No Command Found!\n"); 
else 

run_command (index,argc,argv); //argc,argyv 


} 


close (fqd); 
while(1); 
return 0; 


} 

依据 图 15-1 描 述 的 执行 流程 可 知 ， 解 析 器 的 数据 读 取 、 数 据 解 析 和 数据 执行 三 个 环节 均 位 于 主 函 
数 的 循环 体内 ， 它 们 分 别 对 应 着 函数 read_line、parse_command 以 及 run_command， 下 面 将 对 这 
三 个 函数 进行 逐一 讲解 。 

数据 读 取 函 数 read_line 负 责 从 键盘 设备 中 读 取 键盘 扫描 码 。 如 果 键 盘 扫 描 码 是 可 显示 字符 , 那 
么 read_line 子 数 会 将 扫描 码 打 印 在 屏幕 上 。 当 键入 换行 符 '\n' 时 ， 数 据 读 取 孙 数 将 返回 已 读 取 的 
可 显示 字符 和 数据 长 度 ， 完 整 的 函数 实现 请 参见 代码 清单 15-19。 


代码 清单 15-19 ”第 15 章 \ 程 序 \ 程 序 15-2\ 物 理 平台 \usen\init.c 


int reagd line(int fqd,char *buf) 


{ 


int key = 0; 
int ount S03» 
while(1) 
{ 
key = analysis_keycode (fd); 
if (key ee Me) 
{ 
return count; 
} 
else if (key) 
{ 
buf[lcount++] = key; 
printf("%Sc",key); 
; 
else 
continue; 
} 
} 


当 解 析 器 收 到 read_ line 了 水 数 返回 的 数据 后 ， 解析 器 将 进入 数据 解析 阶段 。 国 数 parse_command 
主要 负责 数据 解析 工作 ， 它 可 从 已 读 入 的 数据 中 提取 出 命令 和 命令 参数 ， 然 后 使 用 fing_cmd 函 数 从 
命令 列表 数组 中 检索 出 与 之 相 匹 配 的 命令 索引 值 ， 具 体 实现 如 代码 清单 15-20 所 示 。 
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代码 清单 15-20 ”第 15 章 \ 程 序 \ 程 序 15-2\ 物 理 平台 \usen\init.c 


int parse_ command (char * buf,int * argc,char ***argv) 
{ 


int i 


0; 
0; 


int J 


while(buf[j] == ' ') 


j++; 
for(i = j;i<256;i++) 
{ 
f(!buf[il]) 
break; 
f(afti). eV ee ‘(butlisl) ss" "|| Baur) ee "NNO") 
(*argc)++; 


} 


printf("parse_ command argc:%d\n",*argc); 


if(!*arge) 

return -1; 
*argv = (char **)malloc (sizeof (char**) * (*argc)); 
printf("parse_ command argv:%#0181x,*argv:%#0181x\n",argVv,*argv); 


for(i = 0;i < *argc && j < 256;i++) 
{ 
*( (EEGV)HELY) SS 这 bu 下 
while(bufl[j] && buf[j] != ' ') 
河津 汪 这 
buf[j++] = '\0' 
while(buf[j] = 
j++; 
printf("%$s\n", (*argv) [i]); 


Se 


} 


return find_ cmd (**argv); 


函数 parse_command 的 数据 解析 过 程 并 不 复杂 ， 只 是 相对 繁琐 一 些 。 考 虑 到 本 系统 目前 还 未 实 

现 exec 类 系统 调用 API， 也 即 无 法 创建 子 进程 来 执行 文件 系统 中 的 命令 Re 那么 就 只 能 在 Shell 命 
令 解 析 器 内 部 构建 命令 列表 ， 故 此 便 有 了 命令 列表 数组 和 finq_cma 函 数 。 

命令 列表 数组 由 者 干 个 struct buildincmaq 结 构 体 组 成 〈 它 定义 于 inith 文 件 内 )， 此 结构 记录 着 
命令 名 和 命令 的 处 理 函 数 ， 代 码 清单 15-21 是 它们 的 定义 与 处 理 函 数 实现 。 


代码 清单 15-21 第 15 章 \ 程 序 \ 程 序 15-2\ 物 理 平台 \usen\init.c 


char *current_dir = NULL; 


int cd_command (int argc,char **argv){} 
int ls_command (int argc,char **argv){} 
int pwd_command (int argc,char **argv) 


if(current_dir) 
printf("%$s\n",current_dir); 
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int cat_command (int argc,char **argv){} 
int touch command (int argc,char **argv){} 
int rm command (int argc,char **argv){} 

int mkdir command (int argc,char **argv){} 
int rmdir command (int argc,char **argv){} 
int exec_ command (int argc,char **argv){} 
int reboot_ command (int argc,char **argv){} 


struct buildincmd shell_internal cmd[] = 

{ 
{"cd",cd_command}, 
{"1]s",1ls_command}, 
{"pwd",pwd_command}, 
{"cat",cat_command}, 
{"touch",touch command}, 
{"rm",rm command}, 
{"mkdir",mkdir_command}, 
{"rmdir",rmdir_ command}, 
{"exec",exec_command}, 
{"reboot",reboot_command}, 


int fing cmd (char *cmd) 


dt A fe Os 
for(i = 0;i<sizeof (shell_internal_cmd)/sizeof (struct buildincmd);i++) 
if(!strcmp(cmd,shell_internal_cmd[i] .name)) 
return i; 
return -1; 


} 

目前 Shell 命 令 解 析 器 仅 能 实现 工作 路 径 查 询 命令 pwa， 该 命令 通过 printf 琐 数 将 全 局 变量 
current_dir 保 存 的 当前 工作 路 径 名 显示 到 屏幕 中 。 从 这 段 代 码 来 看 ， 命 令 列 表 数 组 shel1_ 
internal_cmq 的 结构 简单 、 清 晰 、 易 扩展 ， 如 果 读 者 希望 添加 自 定 义 命令 ， 只 需 套 用 现 有 框架 即 可 。 

如 果 findq_cmd 郑 数 检索 到 命令 ，find_cmd 函 数 会 返回 命令 对 应 的 索引 值 ， 然 后 进入 命令 执行 阶 
段 。 接 下 来 的 工作 将 交 由 *un_command 函 数 处 理 ， 它 会 根据 索引 值 调 用 相应 的 处 理 函 数 ， 并 将 参数 个 
数 和 参数 值 传递 给 处 理 函 数 ， 代 码 清单 15-22 是 run_command 函 数 的 代码 实现 。 


代码 清单 15-22 第 15 章 \ 程 序 \ 程 序 15-2\ 物 理 平台 \usen\init.c 


void run command(int index,int argc,char **argyv) 

{ 
printf("run command %s\n",shell_ internal_cmd[index] .name); 
shell_internal_cmd[index] .function(argc,argv);} 


} 
现在 ，Shell 命 令 解 析 带 已 设计 完成 ， 即 刻 进入 程序 测试 环节 ， 疝 终端 命令 行 键入 pwd 命 令 查 询 工 
作 路 径 ， 图 15-3 是 Shell 命 令 解析 器 的 大 致 运行 效果 。 
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图 15-3 ”Shell 命 令 解 析 程 序 运行 效果 图 


15.2 ”基础 命令 


虽然 此 刻 Shell 命 令 解析 器 已 实现 ,但 它 只 能 为 用 户 提供 与 计算 机 交互 的 终端 命令 行 。 鉴 于 职能 所 
限 ， 它 必须 依仗 身后 强大 、 丰 富 的 命令 才能 完成 用 户 交 给 的 任务 。 故 此 ， 本 闻 将 本 号 一 些 基础 命令 来 
增强 系统 交互 能 


15.2.1 重启 命令 reboot 


关机 命令 power off 可 谓 是 操作 系统 必 不 可 少 的 功能 之 一 ， 但 由 于 关机 过 程 必须 操作 电源 管理 芯 
片 和 系统 内 核 的 诸多 模块 才能 实现 ， 因此 这 里 先 用 reboot 重 启 合 命令 代替 。 其 实 ， 重 启 功 能 亦 可 细 分 
为 冷 重 启 和 热 重启 两 种 ， 冷 重启 是 通过 处 理 器 的 复位 电路 实现 ， 而 热 重启 则 与 关机 命令 的 执行 过 程 一 
样 复杂 。 考 虑 到 实现 的 难 易 程 度 ， 本 节 和 暂且 只 实现 冷 重启 功能 。 

冷 重启 功能 的 实现 比较 简单 ， 仅 需 向 IO 端口 0x64 输 出 数值 0xfe 即 可 将 硬件 电路 复位 。 由 于 在 
POSIX 规 范 中 尚未 发 现 reboot 重 启 命令 的 描述 ， 所 以 我 们 必须 自己 实现 它 。 借 鉴 之 前 的 系统 调用 API 
处 理 函 数 实现 ， 重 启 命令 的 系统 调用 人 口 函 数 名 为 reboot ， 其 对 应 的 系统 调用 API 处 理 琐 数 名 为 
sys_close， 代 码 清单 15-23 和 代码 清单 15-24 是 这 两 个 函数 的 程序 实现 。 


网 


几 


二 


代码 清单 15-23 ”第 15 章 \ 程 序 \ 程 序 15-3\ 物 理 平台 \kernel\sys.c | 


unsigned long sys_reboot (unsigned long cmd,void * arg) 
{ 

Color_printk (GREEN, BLACK, "sys_reboot\n"); 

Switch (cmad ) 
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Case SYSTEM_ REBOOT: 
io_out8 (0x64, OxFE); 
break; 


Case SYSTEM_POWEROFF : 
color_printk(RED,BLACK,"sSys_reboot cmd SYSTEM_ POWEROFF\nN"); 
break; 


default: 
Color_printk (RED,BLACK, "sys_reboot cmd ERROR!\n"); 
break; 
} 


return 0; 

} 

这 段 代码 中 的 宏 常量 sYsTEM_REBOOT 和 SYSTEM_POWEROFF 是 处 理 函 数 可 执行 的 控制 命令 ,通过 
控制 命令 ，sys_reboot 函 数 可 确定 执行 关机 程序 分 支 还 是 重启 程序 分 支 ， 这 两 个 宏 常量 的 定义 位 于 
SYS . h 头 文件 中 。 

重启 命令 的 应 用 层 代码 实现 更 为 简单 ， 调 用 reboot 函数 向 内 核发 送 SYSTEM_REBOOT 重 启 命令 即 
可 ,代码 清单 15-24 是 reboot_command 卫 数 的 实现 。 


代码 清单 15-24 ”第 15 章 \ 程 序 \ 程 序 15-3\ 物 理 平台 \usen\init.c 


int reboot_command (int argc,char **argv) 
{ 
reboot (SYSTEM REBOOT, NULL); 


向 终端 命令 行 输入 reboot 命 令 便 可 验证 程序 的 运行 效果 ， 如 果 
生效 。 


15.2.2 ”工作 目录 切换 命令 ca 


有 些 命令 必须 内 建 于 Shell 命 令 解 析 器 中 , 像 本 节 的 工作 目录 切换 命令 cq 就 必须 内 内 在 命令 解析 器 
中 。 这 是 因为 在 PCB 中 通常 会 有 记录 程序 当前 工作 目录 的 成 员 变 量 ， 它 可 使 程序 通过 相对 路 径 访问 文 
件 ,在 执行 cq 命令 切换 工作 目录 时 ， 该 成 员 变 量 也 会 随 之 被 修改 。 如 果 cq 命 令 作 为 外 部 程序 的 话 ， 它 
将 运行 于 解析 器 创建 的 子 进程 中 ， 从 而 导致 ca 命令 仅 能 改变 子 进程 的 工作 目录 ， 却 无 法 改变 解析 器 的 
工作 目录 ， 以 至 于 无 法 达到 预期 效果 。 因 此 ， 工 作 目 录 切 换 命令 cd 必须 内 散在 Shell 命 令 解析 器 里 ， 好 
在 目前 的 命令 已 全 部 内 建 在 解析 器 中 ， 这 就 省 去 修改 解析 器 的 烦恼 。 

cg 命令 是 通过 chdir 系 统 调用 API 实 现 的 工作 目录 切换 ， 表 15-2 是 POSIX 规 范 对 chair 函 数 的 概要 


电脑 瞬间 重启 ， 则 重启 命令 已 经 


表 15-2 chqdir 了 函数 简介 表 


函数 名 int chdir(const char *path) 
功能 摘要 切换 工作 目录 


头 文 件 #include <unistd.h> 


( 续 ) 
描述 将 工作 目录 切换 到 path 指 定 的 路 径 下 ， 路 径 的 检索 工作 并 非 以 /为 起 始点 
参数 const char *path 目标 工作 目录 
返回 值 int 如 果 执 行 成 功 ,返回 0; 否则 不 改变 工作 目录 并 返回 -1，errno 变 量 会 记 
录 错 误 码 
错误 码 EACCES 权限 不 足 
ELOOP 在 解析 path 时 遇 到 路 径 循环 
ENAMETOOLONG 路 径 名 过 长 
ENOENT 目标 文件 或 目录 不 存在 
ENOTDIR 在 路 径 检索 期 间 发 现 非 目录 项 
按理 说 ，chair 函 数 应 该 修改 PCB 内 记录 程序 当前 工作 目录 的 成 员 变 量 ，chair 函 数 的 系统 调用 
API 处 理 也 数 名 为 sys_chair。 为 了 简化 代码 结构 或 编程 复杂 度 ， 当 前 工作 目录 由 Shell 命 令 解 析 器 的 


全 局 变量 current_qdir 保 存 ， 而 函数 sys_chqdir 只 负责 验证 工作 目录 ， 代 码 清单 15-25 是 sys_chqdir 
函数 的 程序 实现 。 


代码 清单 15-25 ”第 15 章 \ 程 序 \ 程 序 15- 小 物理 平台 \kernel\sys.c 


unsigned long sys_chdir(char *filename) 


{ 


char * ‘patlh, = NULL:} 
long pathlen = 0; 
struct dir entry * dentry 


= NULL; 


Color_printk (GREEN, BLACK, "sys_chdir\n"); 
path = (char *)kmalloc (PAGE 4kK_SIZE,0); 


if(path == NULL) 
return -ENOMEM; 


memset (path,0,PAGE 4K_SIZE); 
pathlen = strnlen user (filename,PAGE 4K_ SIZE); 


if(pathlen <= 0) 

{ 
kfree(path); 
return -EFAULT; 

} 


else if(pathlen >= PAGE 4K_SIZE) 


f 
kfree(path); 
return -ENAMETOOLONG; 


} 


strncpy_from user (filename,path,pathlen); 


dentry = path walk (path,0); 


kfree(path); 


if(dentry == NULL) 
return -ENOENT; 


if(dentry->dir_inode->attribute 


return -ENOTDIR; 


一。 


FS_ATTR_DIR) 
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return 0; 


} 
从 这 段 程序 中 可 以 看 出 ，sys_chair 困 数 只 对 参数 filename 提 供 的 路 径 名 进行 验证 ， 通 过 检测 
path_walk 消 数 的 返回 值 就 可 判断 路 径 名 是 否 正确 。 
由 于 cd 命令 只 能 切换 至 邻接 的 上 下 层 目录 ， 又 因为 目前 系统 只 支持 绝对 路 径 名 搜索 ， 所 以 命令 处 
理 函数 ca_commangd 必 须 将 当前 工作 目录 与 目标 目录 名 拼接 成 绝对 路 径 名 才能 被 cngir 函 数 使 用 ， 代 
码 清单 1$-26 即 是 ca_command 函 数 的 程序 实现 。 


代码 清单 15-26 ”第 15 章 \ 程 序 \ 程 序 15- 外 物理 平台 \userinit,c 


int caq_command (int argc,char **argyv) 
{ 

char *path = NULL; 

int len = 0; 


Ent 1 0 

len = strlen(current_ dir); 

JA A 

if(!strcmp(".",argv[1])) 
retirn 13 

LY see 

if(!strcmp("..",argv[1])) 


if (LetrFomi(t /urtent dT)) 


return 1; 
for( = len-1;i > 1;i--) 
if(current_dir[i] == '/') 
break; 
GUEFrent dlrl[i ,EE. SNOW 
printf("pwd Switch to %s\n",current_ dir); 
return 1; 
} 
////others 


i = len + strlenl(argv[1]); 
path = malloc(i + 2); 
memset (path,0,i + 2); 
strcpy (path,current_dir); 
if(len > 1) 
path[llen] = '/'; 
streat (path,argv[lli]}s 
printf("cd_ command :%$s\n",path); 


i = chdir(path); 
证 和 区 请) 
current_dir = path; 
else 
printf("Can't Goto Dir %Ss\n",argv[l1l]); 
printf("pwd Switch to %s\n",current_ dir); 
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函数 cq_command 可 根据 输入 的 目标 目录 名 做 出 三 种 动作 。 如 果 目 录 名 为 '.' ， 工 作 目 录 将 切换 
至 当前 目录 ， 那 么 ca_commandq 郴 数 无 需 切换 工作 目录 ; 当 目 录 名 为 ".." 时 ， 工 作 目 录 将 切换 至 当前 
目录 的 父 目录 ,如 果 当 前 目录 已 是 文件 系统 的 根 目录 , 那么 ca_ commang 函 数 依然 不 用 切换 工作 目录 ， 
否则 就 切换 至 当前 目 i 目录 ， 实 现 方法 是 把 当前 工作 目录 的 最 后 一 个 ' /字符 替换 为 0'; 如 果 
目录 名 均 不 为 ' .和 ".."， 那 么 将 目录 名 拼接 到 当前 工作 目录 之 后 ， 再 调用 cndair 困 数 对 拼接 后 的 路 
径 名 进行 验证 。 

图 15-4 是 cq 命令 的 运行 效果 ， 请 读者 在 运行 测试 程序 前 不 要 忘记 ， 在 文件 系统 中 创建 儿 层 目录 。 


(R) Core(TW i7-2620M C 


t) :0x01 Integrated APIC 


test_timer (HPET 


h:0x000000011e600 


e0 ,start_brk: Oxffff800000154c40,e 


15.2.3 目录 内 容 显 示 命 今 1s 


当 我 们 无 意 间 进 入 一 个 目录 后 , 潜意识 中 会 想 看 看 这 个 目录 里 都 保存 了 什么 内 容 (文件 或 目录 )。 
按照 这 个 思维 逻辑 ， 本 节 将 实现 目录 内 容 显 示 命 令 1s。 

POSIX 规 范 已 为 目录 操作 提供 诸多 系统 调用 API，1s 命 令 只 使 用 其 中 的 opendir、closedir 和 
readdir 三 个 函数 ， 它 们 可 使 目录 访问 过 程 变 得 像 操作 文件 一 样 轻松 。 表 15-3 、 表 15-4 以 及 表 15-5 是 
POSIX 规 范 对 这 三 个 函数 的 简介 ， 从 函数 的 声明 来 看 ， 它 们 与 文件 操作 的 相关 函数 极其 相似 。 


表 15-3 ”opendir 函 数 简介 表 


函数 名 DIR *opendir(const char *dirname) 
功能 摘要 打开 目录 ， 这 个 过 程 将 使 目录 和 文件 描述 符 建立 关联 
头 文 件 #include <dirent.h> 
描述 opendir 卫 数 将 会 打开 参数 dirname 指 定 的 目录 。 其 实 DIR 代 表 一 个 文件 描述 符 ，opendir 与 使 用 


O_DIRECTORY 标 志 位 的 open 函 数 功 能 相同 
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( 续 ) 
参数 const char *dirname 描述 目录 的 路 径 名 
返回 值 DIR * 如 果 执 行 成 功 ， 则 返回 DIR 结 构 指 针 ; 否则 返回 NULL 指 针 ，errno 
变量 会 记录 错误 码 
着 误 码 EACCES 权限 不 足 
ELOOP 路 径 名 存在 链接 循环 
ENAMETOOLONG 路 径 名 过 长 
ENOENT 路 径 名 中 存在 无 效 目录 或 空 目 录 
ENOTDIR 在 路 径 检索 期 间 发 现 非 目 录 项 
EMFILE 进程 无 空 闪 文件 描述 符 
ENFILE 系统 无 空 闪 文件 描述 符 


opengdir 函 数 用 于 打开 目录 ， 它 与 文件 打开 也 数 open 十 分 相似 ， 只 不 过 opendir 函 数 返 回 的 是 目 
录 结 构 体 struct DIR， 而 open 哨 数 返 回 的 是 文件 描述 符 的 句柄 ， 代 码 清单 15-27 是 struct DIR 结 构 
体 的 完整 定义 。 


代码 清单 15-27 第 15 章 \ 程 序 \ 程 序 15-5\ 物 理 平台 \user\dirent.h 


struct DIR 
{ 


int fd; 
int buf_pos; 
int buf_engd; 
char buf [256]; 
地 
从 这 上段 程序 中 可 知 ，struct DIR 结 构 仅 仅 是 将 文件 描述 符 句 柄 和 数据 缓冲 区 封装 在 同一 结构 体 
内 ， 那么 struct DIR 结 构 体 也 可 认为 是 一 个 句柄 。 其 实 ，POSIX 规 范 并 未 明确 定义 struct DIR 结 构 
体 ， 读 者 可 自由 定义 。 
根据 文件 操作 的 编程 经 验 来 看 ，closedir 函 数 必然 用 于 关闭 已 经 打开 的 目录 ， 表 15-4 是 POSIX 


规范 对 此 函数 的 大 致 描述 
表 15-4 ”closedir 函 数 简介 表 

函数 名 int closedir (DIR *dirp) 
功能 摘要 关闭 目录 

头 文件 #include <dirent.h> 

描述 closedir 滑 数 将 会 关闭 参数 girp 指 定 的 目录 

参数 DIR *dirp 可 代表 一 个 文件 描述 符 

返回 值 int 如 果 执 行 成 功 ， 则 返回 0; 否则 返回 -1，errno 变 量 会 记录 错误 码 
错误 码 EBADF 参数 airp 无 法 索引 到 正确 的 目录 

EINTR 在 函数 执行 期 间 被 信号 打 断 
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至 于 readdir 函 数 ， 从 字面 意思 便 可 知晓 它 用 于 读 取 目录 内 的 数据 ， 表 15-5 是 POSIX 规 范 对 它 的 
整体 功能 介绍 。 


表 15-5 readdir 函 数 简介 表 


函数 名 struct dirent *readdir (DIR *dirp) 
功能 摘要 从 目录 中 读 取 数 据 
头 文 件 #include <dirent.h> 
描述 readGqir 困 数 可 一 次 缓存 多 个 目录 项 结构 ， 但 每 次 调用 只 能 返回 一 个 装 有 目录 项 信息 的 airent 结 
构 ， 直 至 返回 NULL 为 止 
参数 DIR *restrict dirp 可 代表 一 个 文件 描述 符 
返回 值 struct dirent * 如 果 执 行 成 功 ， 则 返回 airent 结 构 或 0; 否则 返回 NJLL 指 针 ， 
errno 变 量 会 记录 错误 码 
错误 码 EOVERFLOW 返回 的 结构 中 存在 错误 值 
EBADF 参数 dirp 无 法 索引 到 正确 的 目录 
ENOENT 无 效 的 目录 访问 位 置 


在 readqdqir 国 数 的 声明 中 引入 一 个 名 为 struct dirent 的 结构 体 ， 它 把 从 目录 读 取 的 数据 抽象 
成 一 个 结构 。 代 码 清单 15-28 是 该 结构 体 的 具体 定义 ， 考 虑 到 FAT32 文 件 系 统 的 特性 ， 此 处 暂 未 遵照 
POSIX 规 范 的 描述 去 定义 它 。 


代码 清单 15-28 ”第 15 章 \ 程 序 \ 程 序 15-5\ 物 理 平台 \user\dirent.h 


struct dirent 


{ 


long d_offset; 
long d_type; 
long d_namelen; 
char d_name[]; 
}; 
早 在 第 13 章 就 已 提 及 过 文件 和 目录 同 由 目录 项 代表 , 其实 这 也 间接 上 暗示 open 和 close 函 数 既 可 操 
作文 件 也 可 操作 目录 ， 而 本 节 的 opendair 和 closedir 函 数 均 是 它们 两 个 的 二 次 封装 ,那么 opendir 
函数 返回 的 struct dirent 结 构 体 内 含有 文件 描述 符 句 柄 也 就 并 不 稀奇 了 。 

代码 清单 1$-29 一 次 性 给 出 openair、closeaqir 和 reaqdqir 三 个 函数 的 程序 实现 。 从 这 三 个 函数 
的 代码 实现 中 可 以 看 出 ， 它 们 都 是 封装 函数 ， 而 并 非 真 正 的 系统 调用 API 和 人 口 程序 。 


代码 清单 15-29 ”第 15 章 \ 程 序 \ 程 序 15-5\ 物 理 平台 \user\dirent.c 


struct DIR* opendir(const char *patnh) 


{ 


i Ed Os 

truct ‘DIR* dir & NULL:; 

Q = open(path,O_DIRECTORY) ; 

人 0 

dir = (struct DIRx)malloc(sizeof(struct DIR)); 


P- Fh Wp 


else 
return NULL; 
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memset (dir,0,sizeof (struct DIR)); 
diresfd fod; 

dir->buf_pos = 0; 

Qir->buf endq = 256; 

return dir; 


int closedir(struct DIR *dir) 


close(dir->fd); 
free(dir); 
return 0; 


struct dirent *readdir(struct DIR *dir) 
{ 
int len = 0; 
memset (dir->buf,0,256); 
len = getdents (dir->fd, (struct dirent *)dir->buf,256); 
if(len > 0) 
return (struct dirent *)dir->buf; 
else 
return NULL; 
} 


看 到 这 里 ，opendir 和 closedir 拯 数 可 能 与 读者 预期 的 封装 方法 比较 相似 。 可 是 ,目前 的 
sys_open 处 理 函 数 尚 未 支持 目录 的 打开 功能 。 那 么 下 面 就 通过 代码 清单 1$-30 对 sys_open 函 数 进行 
修正 ， 使 open 国 数 可 以 打开 文件 和 目录 。 
代码 清单 15-30 第 15 章 \ 程 序 \ 程 序 15-5\ 物 理 平台 \kernel\sys.c 


unsigned long sys_open(char *filename,int flags) 


if(dentry == NULL) 
return -ENOENT; 


if((flags & O_DIRECTORY) && (dentry->dir_ inode->attribute != FS_ATTR_DIR)) 
return -ENOTDIR; 
if(!(flags & O_DIRECTORY) && (dentry->dir_ inode->attribute == FS_ATTR_DIR)) 


return -EISDIR; 


代码 清单 15-28 中 比较 特殊 的 函数 是 readdir， 它 体内 封装 着 一 个 名 为 get dents 的 孔 数 ， 函 数 
getdents 才 是 读 取 目录 数据 的 主角 。 涵 数 getdents 用 于 读 取 指定 目录 下 的 目录 项 信息 ， 只 需 向 其 传 
人 struct DIR 结 构 体 (保存 着 文件 描述 符 句 柄 和 缓冲 区 基地 址 ) 就 可 从 指定 目录 中 读 取 出 一 个 目录 
项 信息 。getdqents 系 统 调用 API 的 处 理 函 数 名 为 sys_getdents， 它 同样 可 以 套用 sys_reaa、 
sys_lseek 等 函数 的 代码 结构 ， 代 人 码 清单 15-31 是 sys_getdents 函 数 的 详细 程序 实现 。 


代码 清单 15-31 第 15 章 \ 程 序 \ 程 序 15-5\ 物 理 平台 \kernel\sys.c 


unsigned long sys_getdents(int fd, void * dirent, long count) 


{ 


struct file * filp = NULL; 
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unsigned long ret = 0; 


// color_printk (GREEN,BLACK, "sys_getdents:%d\n",fd); 
if(fd <0 || fqd > TASK_FILE MAX) 
return -EBADF; 
if(count < 0) 
return -EINVAL; 


filp = current->file struct[fd]; 
if (filp->f_ops && filp->f_ops->readdir) 

ret = filp->f_ops->readdir (filp,dirent,¢&fill dentry); 
return ret; 


} 
函数 sys_get gents 的 核心 功能 是 调用 文件 操作 方法 readdir 读 取 目 录 中 的 数据 。 这 是 一 个 新 引 
入 的 文件 操作 方法 ， 代 码 清单 15-32 和 代码 清单 15-33 是 readgir 操 作 方 法 的 定义 与 处 理 函数 赋值 。 


代码 清单 15-32 第 15 章 \ 程 序 \ 程 序 15-5\ 物 理 平台 \kernel\sys.c 


struct file operations 


long (*readdir) (struct file * filp,void * dirent,filldir t filler); 
}; 


代码 清单 15-33 ”第 15 章 \ 程 序 \ 程 序 15-5\ 物 理 平台 \kernel\sys.c 
struct file operations FAT32_file ops = 


.readdir = FAT32_readdir, 
ey 


处 理 也 数 FAT32_readqdir 来 自 于 FAT32 文 件 系 统 ， 它 的 任务 是 从 指定 目录 中 找 出 有 效 目 录 项 ， 
这 一 点 与 FPAT32_lookup 函 数 极其 相似 , 只 不 过 FAT32_1lookup 函 数 的 检索 条 件 更 为 苛刻 些 。 那 么 ， 
只 要 参照 FAT32_1ookup 函 数 的 设计 思路 便 可 实现 FAT32_readdir 函 数 ， 代 码 清单 15-34 和 代码 清 
单 15-35 是 FAT32_readdir 函 数 的 程序 实现 。 


代码 清单 15-34 第 15 章 \ 程 序 \ 程 序 15-5\ 物 理 平台 \kernel\sys.c 


long FAT32_readdir(struct file * filp,void * dirent,filldir t filler) 
{ 


struct FAT32_inode_ info * finode = filp->dentry->dir_inode->private_index_info; 
struct FAT32_sb_info * fsbi = filp->dentry->dir_inode->sb->private_sb_info; 


unsigned int cluster = 0; 
unsigned long sector = 0; 
unsigned char * buf =NULL; 
char *name = NULL; 
int namelen = 0; 
Te 0 

struct FAT32_Directory * tmpdentry = NULL; 
struct FAT32_LongDirectory * tmpldentry = NULL; 
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上 


buf = kmalloc (fsbi->bytes_per_cluster,0); 
cluster = finode->first_cluster; 
j = filp->position/fsbi->bytes_per_cluster; 


for(i = 0;i<j;i++) 

{ 
cluster = DISK1_FAT32_ read_ FAT Entry (fsbi,cluster); 
if(cluster > Ox0Offffff7) 
{ 


color_printk (RED,BLACK, "FAT32 FS (readdir) 


cluster didn'‘t exist\n"); 
return NULL; 


} 


next_cluster: 


sector = fsbi->Data_ firstsector + (cluster - 2) * fsbi->sector per_cluster; 


if(!IDE device operation.transfer (ATA_ READ_ CMD, sector,fsbi->sector per_cluster, 
(unsigned char *)buf)) 


{ 
color_printk (RED,BLACK, "FAT32 FS(readdir) read disk ERRORIIIIIIIILIIND" ) ， 
kfree (buf); 
return NULL; 

} 

tmpdentry = (struct FAT32_Directory *) (buf + filp->position%fsbi-> 


bytes_per_cluster); 


以 上 这 段 代 码 为 搜索 目录 的 数据 区 提供 起 始 搜索 扇 区 号 、 起 始 扇 区 内 偏 移 量 等 数据 ， 这 些 数据 是 
通过 文件 当前 访问 位 置 变量 filp->position 计 算 而 得 。 

当 确 定 起 始 扇 区 号 和 扇 区 内 偏 移 量 后 ， 函 数 Far32_readqdir 将 进入 有 效 目 录 项 搜索 阶段 ， 整 个 
搜索 过 程 会 对 目录 项 结构 进行 逐一 检验 ， 直 至 发 现 有 效 目 录 项 (包括 长 目录 项 和 短 目 录 项 ) 或 者 遍历 
到 目录 的 数据 区 结尾 处 ， 这 个 搜索 过 程 由 代码 清单 15-35 负 责 完成 。 


代码 清单 15-35 第 15 章 \ 程 序 \ 程 序 15-5\ 物 理 平台 \kernel\sys.c 


for(i = filp->position%fsbi->bytes_per_cluster;i < fsbi->bytes_per_cluster;i += 


32,tmpdentry++,filp->position += 32) 


‘ 

if (tmpdentry->DIR_Attr == ATTR_LONG_ NAME) 
continue; 

if(tmpdentry->DIR_Name[0] == 0xe5 || tmpdentry->DIR Name[0] == 0x00 || 
tmpodentry->DIR_Name[0] == 0x05) 
continue; 

namelen = 0; 

tmpldentry = (struct FAT32_LongDirectory *)tmpdentry-1; 


if (tmpldentry->LDIR_Attr == ATTR_LONG_ NAME && tmpldentry->LDIR_ Ord != 0Xe5 && 


tmpldentry->LDIR_Ord != 0x00 && tmpldentry->LDIR Ord != 0x05) 
{ 


j = 0; 
//long file/dir name read 
while(tmpldentry->LDIR_Attr == ATTR_LONG_ NAME && tmpldentry->LDIR_Ord != 
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Oxe5 && tmpldentry->LDIR_ Ord != 0x00 && tmpldentry->LDIR_Ord != 0x05) 


be 
if(tmpldentry->LDIR_Ord & 0X40 ) 
break; 
tmpldentry --; 
} 
name = kmalloc(j*13+1,0); 
memset (name,0,j*13+1); 


tmpldentry = (struct FAT32_LongDirectory *)tmpdentry-1; 
for(x = 0;x<j;x++,tmpldentry --) 
{ 
for(ly = 0;y<5;y++) 
if(tmpldentry->LDIR_ Namel[y] != Oxffff && tmpldentry-> 
LDIR_Namel[y] != 0x0000) 
name [namelen++] = (char)tmpldentry->LDIR_ Namel [y]; 
for(ly = 0;y<6;y++) 
if(tmpldentry->LDIR_ Name2[y] != Oxffff && tmpldentry-> 
LDIR_Name2[y] != 0x0000) 
name [namelen++] = (char)tmpldentry->LDIR_Name2[y]; 
for (y = 0;y<2;y++) 
if(tmpldentry->LDIR_ Name3[y] != Oxffff && tmpldentry-> 
LDIR_Name3[y] != 0x0000) 
name [namelen++] = (char)tmpldentry->LDIR Name3[y]; 


} 

goto find_ lookup_success; 
} 
name = kmalloc(15,0); 
memset (name,0,15); 


//short file/dir base name compare 
for (x=0;x<8;xX++) 
( 

if(tmpdentry->DIR Name[x] == ' ') 


break; 
if(tmpdentry->DIR_NTRes & LOWERCASE_ BASE) 
name[namelen++] = tmpdentry->DIR Name[x] + 32; 
else 
name[namelen++] = tmpdentry->DIR_ Name [x]; 


} 

if (tmpdentry->DIR_Attr & ATTR_DIRECTORY) 
goto find_ lookup_success; 

name [namelen++] = '.'; 


//short file ext name compare 
for (Xay<L113RF 寺 ) 
{ 
if(tmpdentry->DIR Name[x] == ' ') 


break; 
if(tmpdentry->DIR_NTRes & LOWERCASE_ EXT) 
name [namelen++] = tmpdentry->DIR Name[x] + 32; 
else 
name[namelen++] = tmpdentry->DIR_ Name [x]; 
} 
if(x == 8) 
name[--namelen] = 0; 
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goto findq_ lookup_success; 


} 


cluster = DISK1_FAT32_ read_ FAT Entry (fsbi,cluster); 
if(cluster < Ox0Offffff7) 
goto next_cluster; 
kfree (buf); 
return NULL; 


find_lookup_success: 
filp->position += 32; 
return filler(dirent,name,namelen,d0,0); 


不 论 是 长 目录 项 还 是 短 目录 项 , 只 要 它 是 个 有 效 目录 项 就 将 其 名 字 保 存 到 局 部 变量 name 指 向 的 内 
存 空间 中 ， 随 后 再 调用 filler 操 作 方 法 将 提取 出 的 数据 填充 到 应 用 层 的 缓冲 区 内 。 这 段 代 码 对 长 / 短 
目录 项 的 检验 过 程 与 FPAT32_1ookup 函 数 相 似 ， 请 读者 自行 研习 ， 此 处 就 不 再 过 多 讲解 。 

这 里 的 操作 方法 filler 主 要 负责 把 检索 出 的 目录 项 信息 填充 到 应 用 层 的 struct gdirent 结 构 体 
中 ,在 调用 readqqir 文 件 操作 方法 时 会 为 其 指派 处 理 函 数 ， 此 刻 的 处 理 函 数 名 为 fi1l1_qentry， 其 函 
数 实现 请 参见 代码 清单 15-36。 


代码 清单 15-36 第 15 章 \ 程 序 \ 程 序 15-5\ 物 理 平台 \kernel\sys.c 


int fill_ dentry (void *buf,char *name, long namelen,long type,long offset) 


{ 


struct dirent* dent = (struct dirent*)buf; 


if((unsigned long)buf < TASK_SIZE && !verify_area(buf,sizeof(struct dirent) + 
namelen)) 
return -EFAULT; 


memcpy (name, dent->d_name,namelen);} 
dent->d_ namelen = namelen; 

dent->d_type = type; 

dent->d_offset = offset; 

return sizeof (struct dirent) + namelen; 


} 

内 核 层 的 struct dirent 结 构 定 义 于 dirent.h 文 件 内 ， 函 数 fil1_aqentry 会 把 传人 的 数据 格式 化 
成 struct dirent 类 型 的 数据 ， 并 将 其 存 人 应 用 层 。 

在 设计 结构 体 struct dirent 时 还 使 用 到 C 语 言 ( C99 标准 ) 的 一 个 新 特性 ， 即 柔性 数组 成 员 
( flexible array member ) 或 称 零 长 数组 。 以 这 段 代 码 中 的 成 员 变 量 a_name[] (归属 于 struct dirent 
结构 体 ) 为 例 ， 其 实 struct qdirent 结 构 体 并 不 会 为 4h_name 成 员 变 量 分 配 存 储 空间 ， 因 此 struct 
dirent 结 构 体 实际 占用 的 存储 空间 为 sizeof (long)*3。 尽 管 ag_name 不 占用 存储 空间 ,但 它 却 能 
被 引用 ( 比如 aent->a_name )， 这 也 就 意味 着 我 们 可 以 取得 它 的 地 址 。 如 果 读 者 编写 程序 对 结构 体 
struct dirent 进 行 测 斌 的话， 会 很 容易 发 现成 员 变 量 a_name 的 地 址 位 于 结构 体 的 末尾 处 ， 也 就 是 
dent + 1 表示 的 位 置 。 这 种 新 特性 可 使 数组 da_name 的 长 度 可 变 ， 对 于 不 等 长 的 文件 名 字符 串 而 言 ， 
我 们 只 需 一 次 性 为 结构 体 struct dirent 分 配 sizeof (struct dirent)+strlen (name) 的 存储 空 
间 ， 便 可 将 文件 名 客 括 于 结构 体内 ， 而 且 存 储 空间 是 连续 的 。 此 举 同 时 还 能 减少 malloc 类 函数 的 调 
用 次 数 ， 从 而 间接 提高 程序 的 执行 效率 。 
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历经 漫长 的 准备 工作 后 ，opendir、closedir、readdir 等 系统 调用 API 均 已 实现 , 接 下 来 只 要 
仿照 操作 文件 的 函数 调用 步骤 就 可 编写 出 1s_commandq 命 令 处 理 函 数 ， 代 和 码 清 单 1$-37 便 是 函数 
ls_command 的 程序 实现 。 
代码 清单 15-37 第 15 章 \ 程 序 \ 程 序 15-5\ 物 理 平台 \usen\init.c 


int ls_command (int argc,char **argv) 


{ 


} 


struct DIR* dir = NULL; 
struct dirent * buf = NULL; 


dir = opendir(current_dir); 
printf("ls_command opendir:%d\n",dir->fd); 


buf = (struct dirent *)malloc(256); 
while(1) 
{ 
buf = readdir (dir); 
if(buf == NULL) 
break; 
printf("ls_command readdir len:%d,name:%s\n",buf->d namelen,buf->d_name); 


} 


closedir(dir); 


函数 1s_command 的 实现 非常 容易 理解 ， 此 处 就 不 再 过 多 讲解 。 图 15-5 是 在 文件 系统 根 目录 和 


JIOL123Llliwos 目 录 下 执行 ]s 命 令 的 运行 效果 。 


)00000001014, :0x 000000220 
0000000000 0000000000 
)000000000000 0000000000 


): Ox0000000000000001 


)0000000001f 寺 
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细心 的 读者 可 能 会 发 现 ， 在 文件 系统 根 目录 下 有 个 名 为 TESTDISK 的 目录 项 ， 它 在 此 前 的 开发 中 
从 未 提 及 。 借 助 磁 盘 管 理 软件 对 根 目录 数据 分 析 后 发 现 ， 其 实 它 既 不 是 文件 也 不 是 目录 ， 而 是 一 个 卷 


标 (目录 项 属性 是 ATTR_VOLUME_ID 数 值 为 0x08 )。 


15.2.4 ”文件 查看 命令 cat 


当 使 用 1s 命 令 显示 出 目录 中 的 文件 和 目录 后 , 我 们 也 许 会 对 某 个 文件 保存 的 数据 比较 好 奇 ， 那么 


本 节 就 来 实现 文件 查看 命令 cat。 


写 出 cat 命 令 的 处 理 函 数 cat_command， 其 详细 程序 实现 请 参见 代码 清单 15-38 


代码 清单 15-38 ”第 15 章 \ 程 序 \ 程 序 15-6\ 物 理 平台 \usen\init.c 


int cat_command (int argc,char **argv) 


{ 


int len = 0; 
char * filename = NULL; 


arlene He 

char * buf = NULL; 

it 1 EO 

len = strlen(current_ dir); 
i = len + strlenl(argv[1]); 


filename = malloc(i+2); 
memset (filename,0,i+2); 
strcpy (filename,current_dir); 
if(len > 1) 
filename[llen] = '/'; 
strcat (filename,argv[1]); 
printf("cat_command filename:%s\n",filename); 


fd = open(filename,0); 

i = lseek(fd,0,SEEK_END); 

lseek (fqd,0,SEEK_ SET); 

buf = malloc (i+1); 

memset (buf,0,i+1); 

len = read(fdqd,buf,i); 
printf("length:%d\t%$s\n",1en,buf); 


close (fd); 
} 


(e] 


早 在 第 14 章 就 已 实现 基础 文件 操作 的 系统 调用 APL 在 这 些 系统 调用 API 的 帮助 下 我 们 可 以 轻松 纺 


cat 命 令 曾 相继 两 次 调用 1seek 函 数 , 第 一 次 调用 1]seek 函 数 是 为 了 获取 文件 的 长 度 ,而 第 二 


用 1seek 函 数 是 为 了 将 文件 当前 访问 位 置 重 置 为 0， 图 15-6 是 cat 命 令 的 运行 效 胃 


oo 


次 调 


re(TM i7-2620M CPU @ 


Ox00000000000000 
jad jx000000002000000 


jx00000000400000' 
)000001 f 


kr :0x000000000000000( 
0000000000000000 


x000000000002a620 
Ox0000000000000140 
000000001fe00000 


000000001fe00000 
2] 


4) 0000009a600000 


图 15-6 ”cat 命 令 的 运行 效果 图 


15.2.5 ”程序 执行 命令 exec 


在 实现 文件 查看 命令 后 ， 想 必 大 多 数 读者 都 会 觉得 意 
API， 如 果 将 内 核 层 的 do_execve、do_exit 等 函数 作为 系统 调用 API 暴 露 给 应 | 


程序 或 者 外 部 命令 将 指日可待 ， 故 此 本 节 就 来 实现 程序 执行 命令 exec。 
为 了 实现 exec 命 令 需要 新 增 execve、exit 和 waitpidq 三 个 系统 调用 API， 接 下 来 将 按照 sxec 命 


令 的 执行 流程 逐一 实现 它们 。 


犹 未 尽 。 既 然 目 前 已 经 实现 fork 系 统 调 用 
j 层 的 话 ， 那 么 执行 新 


当 exec 命 令 借 助 vfork 函 数 从 Shell 命 令 解 析 咒 克隆 出 一 个 子 进程 后 ， 子 进程 会 先 于 父 进程 运行 ， 
它 会 调用 execve 函 数 执行 指定 路 径 名 下 的 应 用 程序 。 表 15-6 是 POSIX 规 范 对 exec 类 函数 的 概括 介 


绍 ， 鉴 于 exec 类 函数 品种 繁多 ， 此 表 仅 对 使 用 率 较 高 的 几 个 函数 予以 介绍 。 


表 15-6 execv/execve/fexecve 函 数 简介 表 


函数 名 int execv(const char *path, char *const argv[]) 


功能 摘要 执行 一 个 文件 


int fexecve(int fd, char *const argv[], char *const envp[]) 


int execve (Const char *path, char *const argv[], char *const envp[]) 


新 的 程序 由 一 套 结 构 化 的 可 执行 程序 组 成 。 这 引 


头 文 件 #include <unistd.h> 

描述 这 组 函数 将 使 用 新 的 程序 来 覆盖 当前 进程 空间 ， 
数 在 执行 后 不 会 返回 ， 而 是 直接 转 去 执行 新 的 程序 

参数 const char *path 文件 路 径 
char *const argv[] 作为 新 程序 主 函数 的 参数 
char *const envp [] 作为 新 程序 的 环境 变量 


int fa 代表 文件 描述 符 包 


| 
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( 续 ) 
返回 值 int 如 果 函 数 返回 ， 则 说 明 执行 时 发 生 错误 并 返回 -1，errno 变 量 会 记录 
错误 码 

错误 码 E2BIG argv 和 envp 人 参数 占用 空间 过 大 

EACCES 未 知 的 可 执行 文件 类 型 

EINVAL 系统 不 支持 的 可 执行 文件 格式 

ELOOP 在 解析 path 时 遇 到 路 径 循环 

ENAMETOOLONG 路 径 名 过 长 

ENOENT 目标 文件 或 目录 不 存在 

ENOTDIR 在 路 径 检 索 期 间 发 现 非 目录 项 

ENOEXEC 无 法 执行 的 文件 格式 

ENOMEM 系统 内 存 不 足 

ETXTBSY 文件 正在 写 和 中， 无 法 执行 
上 表 描 述 的 三 个 函数 丝 是 从 execve 演 变 而 来 ， 它 们 最 终 都 通过 execve 函 数 进 入 系统 内 核 ， 也 就 


是 说 只 有 execve 函 数 才 是 系统 调用 API 的 和 人口 函数 ， 其 他 函数 均 是 在 其 基础 上 进行 的 扩展 和 封装 
此 ， 下 面 将 实现 execve 系 统 调用 API， 其 他 函数 留 给 感 兴趣 的 读者 自行 实现 。 

execve 对 应 的 系统 调用 API 处 理 函 数 名 为 sys_execve ， 而 函数 sys_execve 也 仅仅 是 对 
do_execve 困 数 的 二 次 封装 ， 其 核心 功能 仍 由 ao_execve 困 数 负责 完成 ， 代 码 清单 15-39 是 
sys_execve 处 理 函 数 的 程序 实现 。 


代码 清单 15-39 第 15 章 \ 程 序 \ 程 序 15- 和 物理 平台 \kernel\vsys.c 


unsigned long sys_execve() 


{ 


char * pathname = NULL; 

long pathlen = 0; 

long error = 0;，; 

struct pt_regs *regs = (struct pt_regs *)current->thread->rsp0 -1; 


color_printk (GREEN, BLACK, "sys_execve\n"); 

pathname = (char *)kmalloc (PAGE 4K_SIZE,0); 

if(pathname == NULL) 
return -ENOMEM; 

memset (pathname,0,PAGE 4KkK_SIZE); 

pathlen = strnlen user((char *)regs->rdi,PAGE 4K_ SIZE); 

if(pathlen <= 0) 

{ 
kfree(pathname); 
return -EFAULT; 


3 
else if(pathlen >= PAGE 4K_SIZE) 
{ 

kfree(pathname); 

return -ENAMETOOLONG; 
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strncpy_from user( (char *)regs->rdi,pathname,pathlen); 
error = do_execve (regs,pathname, (char **)regs->rsi,NULL); 


kfree (pathname); 
return error; 


} 

sys_execve 国 数 与 其 他 处 理 函 数 的 不 同 之 处 在 于 它 并 未 声明 参数 ， 而 是 通过 struct pt_regs 
结构 体 (代码 (struct pt_regs *)current->thread->rsp0 - 1 ) 间接 索引 出 应 用 层 传人 的 各 
个 参数 值 此 处 使 用 struct pt_regs 结 构 体 间接 获取 参数 的 方法 并 非 故 弄 玄 虚 , 而 是 源 于 do_execve 
函数 必须 使 用 此 结构 作为 参数 的 缘故 。 

在 调用 函数 sxecve 执 行 新 程序 时 ， 函 数 execve 可 携带 运行 参数 和 环境 参数 到 新 程序 ， 从 而 可 有 
效 增加 程序 运行 的 灵活 性 和 多 样 性 , 那么 在 ao_execve 函 数 为 新 程序 准备 运行 环境 时 也 应 该 向 新 程序 
( 主 函 数 ) 传 人 运行 参数 和 环境 参数 ( 目前 系统 暂 不 支持 环境 参数 , 故 传 人 NULL 值 ; 因此 , do_execve 
函数 的 声明 应 该 修改 为 unsigned long do_execve(struct pt_regs *regs,char *name,char 
*argv[],char *envp[]) 。 这 也 是 为 什么 标准 主 函 数 应 该 声明 为 int main(int argc,char 
*argv[] )。( 其实，main 函 数 存 在 第 三 个 参数 char *envp[] ， 它 是 非 标准 扩展 参数 ,我们 通常 会 使 
用 函数 getenv 来 获取 环境 参数 。 ) 

经 过 此 番 准 备 工 作 后 ， 下 面 将 调用 函数 ace_execve 为 新 程序 准备 运行 环境 。 鉴 于 函数 
do_execve 现 已 追加 运行 参数 和 环境 参数 , 所 以 它 在 调用 之 前 必须 进行 升级 和 调整 ， 40 
记录 着 整个 细节 。 


代码 清单 15-40 ”第 15 章 \ 程 序 \ 程 序 15- 人 四 物理 平台 \kernel\task.c 


unsigned long do_execve(struct pt_regs *regs,char *name,char *argv[],char *envp []) 


_asm _ volatile _ ("movqg $0, SSCIr3 \n\t"::"r" (current->mm->pgd): 
"memory"); 


filp = open exec_file(name); 
if((unsigned long)filp > -0x1000UL) 

return (unsigned long)filp; 
current->mm->start_bss = code_ start_addr + filp->dentry->dir_inode->file size; 
current->mm->end_bss = stack_start_addr; 


current->flags &= ~PF_VFORK; 


if(argv != NULL) 
{ 
于 条 起 - 间 六 村 0 
int len = 0; 
et 全 二 的 区 
Char xx dargv = (char **) (stack_start_addr - 10 * sizeof (char *)); 
pos = (unsigned long)dargyv; 
for(i = 0;i<10 && argv[i] != NULL;i++) 


{ 


len = strnlen user(argv[i],1024) + 1; 
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strcpy((char *) (pos - len),argv[i]); 
dargv[i] = ha *) (pos - len); 

pos -= le 

} 

stack start. addr = BOS. =,.103 

regs->rdi = 工 ; //argc 

regs->rsi = (unsigned long)dargyv; //argv 


} 


memset ((void *)code_start_addr,0,stack_ start_addr - code_ start_addr); 

DOs. er 0 

retval = filp->f_ops->read (filp, (void *)code_ start addr,filp->dentry-> 
dir_inode->file_ size,é&pos); 


asm _ Volatile _ ("movg $0,%%gs ;movg 0 .ES ys sa (OU 
regs->ds = USER_DS; 
regs->es = USER_DS; 
regs->ss = USER_DS; 
ES 一 CS = USPR_ CS; 


// regs->rip = new_rip; 
// regs->rsp = new_rsp; 
regs->r10 = code_ start_adgr; 
regs->r11 stack_start_adgr; 
regs->rax 二 六 


Color_printk (RED,BLACK, "do_execve task is running\n"); 
return retval; 


} 
这 段 代 码 首 先 通 过 打开 目标 文件 (init.bin ) 来 确定 其 是 否 存在 。 如 果 目 标 文件 不 存在 ， 或 者 在 打 
F 目 标 文 件 时 发 生 错 误 ， 则 返回 错误 码 。 随 后 ， 将 BSS 数 据 段 的 结束 地 址 延伸 至 栈 空间 ， 虽 然 这 么 设 
置 有 些 冒 险 ,但 是 BSS 数 据 段 通常 位 于 代码 段 后 ， 其 与 栈 底 相 距 甚 远 ， 一 般 不 会 出 现 太 大 问题 。 使 用 
栈 空间 较 多 的 读者 可 酌情 调整 栈 空间 大 小 。 
紧 接着 ,判断 形 参 argv 是 否 存 有 新 程序 的 运行 参数 ， 如 果 在 调用 execve 哺 数 时 向 其 传人 过 运行 
数 , 那么 向 下 移动 栈 顶 指针 为 运行 参数 开辟 存储 空间 ， 并 借助 通用 寄存 器 RDI 和 RSI 将 参数 个 数 和 参 
数 数组 的 首 地 址 传递 给 新 程序 的 主 函 数 。 
最 后 ， 函 数 ao_execve 将 加 载 目标 文件 (程序 ) 并 为 其 初始 化 运行 现场 。 在 执行 此 项 任务 前 ， 一 
定 要 清空 各 个 段 空 间 以 及 栈 空 间 里 的 数据 ， 以 防止 内 存 空 间 里 的 脏 数据 影响 程序 正常 运行 。 
在 do_execve 清 数 升级 完毕 后 ， 不 要 忘记 调整 init 函数 调 用 do_execve 的 代码 ， 详 细 修 改 内 容 
参见 代码 清单 15-41。 


代码 清单 15-41 第 15 章 \ 程 序 \ 程 序 15-7\ 物 理 平台 \kernel\task.c 


unsigned long init (unsigned long arg) 


| 


杰出 


_asm _ Volatile _ ( "movg 各 $$%rsp NSNEY 
"pushqa $2 NAN 
"jmp do_execve Sot 


:"D" (current->thread->rsp),"m" (current->thread-> 
rsp),"m" (current->thread->rip),"S"("/init. 


15.2 基础 命令 659 


Din®) pd (NULE)? Ce" “(NULL) 
: "memory" 


当 子 进程 通过 execve 函 数 执行 新 程序 后 ，Shell 命 令 解 析 器 ( 父 进程 ) 将 进入 等 待 状态 ， 直 至 
子 进程 运行 结束 为 止 。 在 子 进程 运行 结束 前 ， 父 进程 可 通过 执行 wait 或 waitpigd 函 数 进 入 等 待 状 
态 ， 表 15-7 是 POSIX 规 范 对 这 两 个 水 数 的 概要 描述 。 


表 15-7 wait/waitpid 函 数 简介 表 


pid t wait (int *stat_loc) 
函数 名 pidt 让 
功能 摘要 等 待 一 个 子 进程 停止 或 结束 
头 文件 #include <sys/wait.h> 
描述 调用 者 进入 阻塞 状态 , 直至 子 进程 结束 ( 或 暂停 ) 并 产生 状态 信息 , wait 用 于 等 待 任何 子 进程 , 而 waitpia 
则 用 于 等 待 指 定子 进程 
参数 pid_t pid 报告 指定 子 进程 的 状态 信息 
Pid 5 任何 子 进程 的 状态 信息 
pid > 0 指定 子 进程 的 状态 信息 
piq = 0 与 父 进程 组 ID 相同 的 任何 子 进程 的 状态 信息 
Did. < =1 组 ID 为 pig 的 任何 子 进程 的 状态 信息 
int *stat_loc ”返回 子 进程 的 结束 状态 ， 通 过 宏 来 解释 
WIFEXITED (stat_val) 返回 值 为 真 ， 表 示 子 进程 正常 结束 
WEXITSTATUS (stat_val) 获取 子 进程 调用 exit 的 参数 值 ， 与 WIFEXITED 
(stat_ val) 联 合 使 用 
WIFSIGNALED (stat_val) 返回 值 为 真 ， 表 示 子 进程 被 信号 终止 
WIERMSTG (Stat =val) 获取 终止 子 进 程 的 信号 值 ， 与 WIFSIGNALED (stat_ 
val) 联 合 使 用 
WIFSTOPPED (stat_val) 返回 值 为 真 ， 表 示 子 进程 被 暂停 
WOTOPSTO CSt a Vad) 获取 诱发 子 进 程 暂停 的 信号 值 ， 与 WIFSTOPPED 
(stat_val) 联 合 使 用 
WIFCONTINUED (stat_val) ， 返回 值 为 真 ， 表 示 有 信号 迫使 子 进程 继续 执行 
int options 额外 控制 选项 
WEONTINUED 若 有 信和 号 迫使 子 进程 继续 执行 ， 则 调用 返回 并 报告 
WNOEANG 如 果 pia 指 定 的 子 进程 没有 结束 ， 则 立即 返 区 
WUNTRACED 若 子 进程 进入 暂停 状态 ， 则 马上 返回 并 报告 状态 
返回 值 | Pid_t 如 果 wait /waitpid 执 行 成 功 ， 则 返回 子 进程 pid; 如 果 执 行 失败 ， 则 返回 -1，errno 
变量 会 记录 错误 码 
错误 码 ECHILD pid 指 定 的 进程 不 存在 或 不 是 调用 者 的 子 进程 
EINTR 在 函数 执行 期 间 被 信号 打 断 


EINVAL 参数 无 效 
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函数 wait 是 由 waitpid 函 数 封装 而 成 ， 它 们 的 参数 stat_loc 记 录 着 子 进程 的 结束 状态 ， 必 须 先 
使 用 宏 函 数 WIFEXITED、WIFSIGNALED、WIFSTOPPED 或 WIFCONTINUED 判 断 出 子 进程 的 结束 类 型 
后 ,才能 取得 详细 的 结束 类 型 值 。 参 数 opt ions 用 于 控制 waitpig 函 数 的 执行 分 支 。 由 于 本 系统 目前 
尚未 支持 进程 间 的 信号 通信 ， 而 且 waitpid 函 数 的 功能 过 于 复杂 ， 致 使 现在 无 法 遵照 POSIX 规 范 来 实 
现 waitpid 系 统 调 用 API。 

困 数 waitpid 对 应 的 系统 调用 API 处 理 函 数 名 为 sys_wait4， 为 了 使 调用 者 在 执行 waitpid 函 数 
后 进入 等 待 状态 ， 这 里 需要 向 PCB 加 入 等 待 队列 成 员 变 量 wait_chilgexit 和 退出 码 成 员 变 量 
exit_code， 代 码 清单 15-42 是 它们 的 详细 定义 。 


代码 清单 15-42 ”第 15 章 \ 程 序 \ 程 序 15- 了 物理 平台 \kernelvtask.h 


struct task_struct 


long exit_code; 

struct file * file struct[TASK_ FILE MAX]; 

wait_queue_T wait_chilgdexit; 

struct task_struct *next; 

struct task struct *parent; 
} 
成 员 变 量 exit_code 是 在 do_fork 卫 数 初始 化 struct task_struct 结 构 体 时 被 赋值 为 0; 等 待 
队列 wait_chilgexit 同 样 是 在 do_fork 函 数 创建 进程 期 间 由 函数 wait_gqueue_init 负 责 初始 化 。 

借助 这 两 个 成 员 变 量 就 可 实现 sys_wait4 函 数 的 功能 ， 代 码 清单 15-43 是 sys_wait4 函 数 的 程序 
实现 ， 它 会 先 对 子 进 程 的 相关 数据 进行 检测 ， 如 果子 进程 满足 等 竺 条件 ， 那 么 调用 者 会 将 自身 挂 起 ， 
直至 子 进程 将 其 唤醒 。 


代码 清单 15-43 ”第 15 章 \ 程 序 \ 程 序 15- 了 物理 平台 \kernel\sys.c 


unsigned long sys_wait4 (unsigned long pid,int *status,int options,void *rusage) 


{ 


long retval = 0; 
struct task_struct *chilgd = NULL; 
struct task_struct *tsk, =. NULD; 


Color_printk (GREEN, BLACK, "sys_wait4\n"); 

for(tsk = &init task union.task;tsk->next != &init_ task union.task;tsk = 
tsk->next) 

{ 
if(tsk->next->pid == pid) 


chilgd = tsk->next; 


break; 
} 
} 
if(chilgd == NULL) 
return -ECHILD; 
if(options != 0) 


return -EINVAL; 


if(child->state == TASK_ZOMBIE) 
Copy_to_user(&child->exit_code,status,sizeof (int)); 
tsk->next = child->next; 
exit_mm(child); 
kfree(child); 
return retval; 


} 
interruptible_ sleep_on(&current->wait_childexit); 


Copy_to_user(&child->exit_code,status,sizeof (long)); 
tsk=->neéxt. =-ehild- Snexty 

exit_mm(child); 

kfree(child); 

return retval; 


} 

在 sys_wait4 函 数 的 起 始 处 ， 代码 会 检测 pi 指定 的 了 进程 是 否 存在 。 如 果子 进程 不 存在 ， 则 参 
数 有 误 ， 返回 错 误 码 EcHILD。 当 子 进程 存在 时 ， 还 需要 检测 子 进程 的 运行 状态 ， 如 果 发 现 由 人 
于 TASK_ZOMBIE 僵 死 状态 ， 则 子 进程 已 执行 结束 ， 那么 wait 或 waitpia 丽 数 会 将 子 进程 的 退 出 码 
回 给 调用 者 ， 并 回收 子 进程 的 资源 。 

如 果 能 够 通过 上 述 检测 ， 则 子 进程 正 处 于 运行 状态 ,那么 父 进 程 会 将 自身 挂 起 ， 并 链 入 等 待 队列 
| 直至 子 进 程 将 它 唤 醒 ， 而 唤醒 后 的 工作 依然 是 返回 退出 码 以 及 回收 资源 - 

子 进 程 执 行 结束 时 ， 可 以 在 main 函 数 中 执行 代码 *eturn 返 回 ， 亦 或 者 调用 函数 exit 退 出 。 这 两 
种 方法 都 可 以 实现 进程 退出 功能 ，5; J 言 级 的 退出 ， 表 示 函 数 的 返回 ; 而 exit 函 
数 是 系统 级 的 退出 ， 表 示 一 个 进程 的 终结 。 其 实 ， 在 *eturn 代 码 背 后 还 隐藏 着 诸多 细节 ， 鉴 于 目前 
的 应 用 程序 还 不 够 健壮 ， Fieecsr aft 出 程序 ， 因 此 只 能 使 用 exit 系 统 调用 API 来 退出 程 
序 ， 表 15-8 是 POSIX 规 范 对 exit 函 数 的 介 


表 15-8 exit 函数 简介 表 


函数 名 void exit (int status) 

功能 摘要 进程 结束 

头 文件 #include <stdlib.h> 
描述 exit 会 强制 进程 回 写 所 有 已 缓存 的 数据 并 相继 释放 资源 ， 而 后 结束 进程 
参数 int status 结束 状态 码 

返回 值 无 无 

错误 码 无 无 


虽然 exit 函 数 比 表面 看 上 去 还 复杂 得 多 ( 使 用 atexit 函 数 可 注册 退出 处 理 函 数 ， je 代码 
return 或 exit 函 数 时 会 自动 调用 处 理 函 数 ), 但 此 处 仅 为 演示 效果 ， 暂 不 将 其 设计 得 太 过 复杂 ， 代码 15 
清单 15-44 是 exit 系统 调用 API 处 理 函 数 的 程序 实现 。 
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代码 清单 15-44 ”第 15 章 \ 程 序 \ 程 序 15- 了 物理 平台 \kernel\sys.c 


unsigned long sys_exit (int exit_code) 

{ 
Color_printk (GREEN, BLACK, "sys_exit\n"); 
return do_exit (exit_code); 


} 

从 sys_exit 函 数 的 代码 实现 不 难看 出 , 它 也 仅仅 是 ao_exit 函 数 的 二 次 封装 而 已 。 尽管 早 在 init 
进程 〈 内 核 线程 ) 创建 时 go_exit 函 数 就 已 实现 ,但 init 作 为 操作 系统 的 第 一 个 进程 并 不 会 执行 
do_exit 转 数 ， 故 此 当时 没有 为 它 编写 功能 代码 。 现 在 ， 它 将 用 于 释放 进程 的 部 分 资源 以 及 唤醒 等 待 
中 的 父 进程 ， 代 码 清单 15-45 是 为 ao_exit 函 数 编写 的 功能 代码 。 


代码 清单 15-45 ”第 15 章 \ 程 序 \ 程 序 15$- 了 物理 平台 \kernelvtask.c 


void exit_notify(void) 


{ 


wakeup (&current->parent->wait_childexit,TASK_ INTERRUPTIBLE); 
} 
unsigned long do_exit (unsigned long exit_code) 
{ 
struct task_struct *tsk = current; 
color_printk (RED,BLACK, "exit task is running,arg:%#018lx\n",exit_code); 


do_exit_again: 
cli(); 
tsk->state = TASK_ ZOMBIE; 
tsk->exit_code = exit_code; 
exit_thread (tsk); 
exit_files(tsk); 
总 二 


exit_notify(); 
schedule (); 

goto do_exit_again; 
return 0; 


} 

既然 进程 已 调用 do_exit 函 数 永久 放弃 处 理 器 的 使 用 权 ， 那么 ao_exit 函 数 就 应 该 把 进程 的 运 
状态 修改 为 TASK_zoMBIE 伪 死 状 态 ， 并 保存 exit 函数 传人 的 退出 码 。 接 下 来 ,我 们 将 释放 0 
有 的 资源 ， et ai 所 以 此 刻 只 能 回收 PCB 的 部 分 资源 ， 必 须 等 到 父 进 
程 从 sys_wait4 哺 数 中 唤醒 时 才能 将 其 全 部 回收 。 最 后 ， 通 过 执行 水 数 exit_notify 唤 醒 等 待 队 列 
中 的 父 进程 ， 并 调用 schedule 函 数 切 换 进 程 。 为 了 防止 系统 再 次 调度 子 进程 运行 ， 这 里 特意 使 
do_exit 了 图 数 循环 执行 。 

至 此 ，execve、waitpid 和 exit 三 个 系统 调用 API 函 数 均 已 实现 。 现 在 ， 只 需 将 它们 融 人 到 fork 
系统 调用 API 测 试 程序 中 ， 便 可 实现 exec 命 令 ， 代 码 清单 15-46 是 exec 命 令 的 处 理 函 数 实现 。 


代码 清单 15-46 第 15 章 \ 程 序 \ 程 序 15- 作 物理 平台 \usen\init.c 


int exec_ command (int argc,char **argv) 


{ 


访 
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} 


int errno = 
long retval 
int len = 0; 
char * filename = NULL; 


0; 
= 0 


Tt sO 
errno = fork(); 
if (errno == 0) 


printf("child process\n"); 
len = strlen(current_dir); 

i = len + strlen(argv[1]); 
filename = malloc (i+2); 
memset (filename,0,i+2); 
strcpy (filename,current_dir); 
if(len > 1) 


filename[len] = '/'; 
strcat (filename,argv{[1]); 
printf("exec_ command filename:%$s\n",filename); 
for(i = 0;i<argc;i++) 

printf("argv[%d] :%$s\n",i,argv[i]); 


execve (filename,argyv,NULL); 


exit (0); 
} 
else 
printf("parent process childpid:%#d\n",errno); 
waitpidl(errno,g&retval,o0); 
printf("parent process waitpid:%#0181lx\n",retval); 
} 


光 实现 exec 命 令 是 无 法 验证 其 运行 效果 的 , 还 需要 额外 实现 一 个 测试 程序 。 这 个 测试 程序 不 必 精 
雕 细 琢 ， 只 要 能 在 屏幕 上 打印 一 些 日 志 信 息 即 可 ， 比 如 实现 成 代码 清单 15-47 所 示 的 样子 。 


代码 清单 15-47 第 15 章 \ 程 序 \ 程 序 15- 人 四 物理 平台 \test\test.c 


int main(int argc,char *argv[]) 


{ 


} 


a 
printf ("Hello World!\n"); 
printf ("argc:%d,argv:%#0181lx\n",argc,argv); 
for(i = 0;i<argc;i++) 
printf("argv[%d] :%s\n",i,argv[il]); 
exit (0); 
return 0; 


这 个 测试 程序 可 直接 使 用 Shell 命 令 解 析 器 的 编译 环境 和 系统 调用 API 库 函数 ， 如 果 觉 得 编译 后 
的 测试 程序 体积 过 大 ， 也 可 自行 裁剪 掉 不 用 的 系统 调用 API， 图 15-7 便 是 exec 命 令 执 行 测试 程序 的 
运行 效果 。 
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当 读 者 看 到 此 处 时 ， 想 必 大 多 数 人 都 会 觉得 意犹未尽 ， 同 时 也 盼望 着 尽早 看 完 本 书后 能 够 大 干 一 
番 。 虽 然 本 操作 系统 的 主体 内 容 已 经 结束 ， 但 考虑 到 许多 初学 者 会 在 调试 阶段 反复 反 汇 编 system 文 件 
去 查找 问题 ,为 了 让 异常 信息 便于 观察 和 理解 ， 本 节 特 意 为 读者 引入 内 核 栈 反 向 跟踪 技术 ， 此 技术 可 
在 内 核 触发 异常 时 打印 出 内 核 层 的 函数 调用 过 程 。 

内 核 栈 反 向 跟踪 技术 主要 是 通过 解析 内 核 栈 ( 内 核 层 栈 空间 ) 中 保存 的 函数 返回 地 址 ， 从 而 确认 
函数 的 调用 关系 。 它 的 难点 在 于 如 何 解析 内 核 栈 中 的 数据 ， 并 将 数据 中 的 返回 地 址 与 函数 名 关联 起 
来 。 为 了 实现 此 技术 ,我们 需要 为 其 开辟 新 的 数据 段 空间 来 保存 所 有 函数 的 起 始 地址 、 函 数 名 字符 串 
以 及 相关 索引 值 等 数据 列表 ， 图 16-1 是 内 核 栈 反 向 跟踪 技术 的 大 致 实现 流程 。 


system system system 

head.o head.o head.o 

entry.o entry.o entry.o 

main.o main.o main.o 

printk.o printk.o printk.o 

trap.o trap.o trap.o lookup_ kallsyms() 

memory.o memory.o memory.G |\、{ 检 索 栈 帧 中 的 函数 返回 地 址 } 

interrupt.o interrupt.o interrupt.o 

task.o task.o task.o 

SYS.0 SYS.0 SYS.0 引用 

syscall.o syscall.o syscall.o 
kallsyms addresses 
kallsyms_syms_ num 
kallsyms_index 


kallsyms_names 


kallsyms 


kallsyms.o 


图 16-1 ”内 核 栈 反 向 跟踪 技术 的 实现 流程 示意 图 


考虑 到 每 次 修改 内 核 程序 都 会 影响 孔 数 的 起 始 位 置 ， 所 以 每 次 编译 链接 内 核 后 都 要 重新 从 内 核 
提取 数据 生成 数据 列表 ， 并 将 数据 列表 保存 在 kallsyms.o 文 件 内 ; 然后 ， 再 把 kallsyms.o 文 件 与 其 他 内 
核 文件 重新 链接 成 新 的 内 核 程序 , 使 其 变 为 内 核 程 序 的 一 部 分 , 进而 使 得 内 核 函 数 lookup_kallsyms 
能 够 访问 数据 列表 并 进行 数据 检索 。 

为 了 实现 内 核 栈 反 向 跟踪 技术 ， 首 先 要 从 内 核 程序 system 中 提取 出 孔 数 的 起 始 地 址 ， 命 令 nm 能 
够 替 我 们 完成 这 项 工作 ， 使 用 选项 n 则 可 将 提取 出 的 函数 地 址 按照 数值 升序 排列 。 以 下 内 容 是 执行 


nm -mn 命 令 时 显示 的 信息 片段 。 
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ffff800000107b66 
ffff800000107bc1l 
ffff800000107c1lc sys_vector_init 


T do_SIMD_ exception 
T 
ffff80000010839c T page_init 
有 
1 


do_virtualization exception 


ffff80000010858e page_clean 
ffff80000010870e init_memory 
ffff800000109288 alloc_pages 
Efff800000109d8e 七 IRQOx20_interrupt 


这 上段 数据 的 第 一 列 是 标识 符 ( 它 可 以 是 函数 、 变 量 以 及 其 他 数据 ) 的 起 始 地 址 ， 第 二 列 负 责 描述 
标识 符 的 类 型 ,第 三 列 是 标识 符 的 名 字 。 当 nm 命令 提取 出 这 些 数据 后 ,我们 可 以 编写 一 个 应 用 程序 将 
这 些 数据 组 织 成 一 个 数据 列表 ， 应 用 程序 使 用 代码 清单 16-1 定 义 的 结构 体 struct symbol_entry 来 
描述 nm 命令 提取 出 的 每 条 信息 。 


代码 清单 16-1 第 16 章 \ 程 序 \ 程 序 16- 八 虚拟 平台 \script\kallsyms.c 


struct symbol_entry 


{ 


unsigned long address; 
char type; 
char *eynmboly 
int symbol_length; 
} 


struct symbol_entry *table; 
int size, count; 
unsigned long _text, _etext; 


当 结 构 体 准备 好 以 后 ， 我 们 将 进入 应 用 程序 的 编写 阶段 。 这 个 应 用 程序 共有 两 个 功能 ， 一 个 是 结 
构 化 nm 命令 传递 来 的 数据 ， 另 一 个 是 把 结构 化 的 数据 组 织 成 数据 列表 保存 到 文件 中 。 故此 ， 应 用 程序 
的 主 函 数 被 设计 成 代码 清单 16-2 的 样子 。 
代码 清单 16-2 ”第 16 章 \ 程 序 \ 程 序 16-T\ 虚 拟 平台 \scriptkallsyms.c 


int main(int argc, char **argv) 


{ 


read_map (stdin); 
write_src(); 
return 0; 


函数 中 的 read_map 函 数 负 责 读 取 标 准 输入 数据 流 stain 传 递 来 的 数据 并 加 以 解析 ， 而 
write_src 函 数 则 用 于 组 建 数据 列表 ， 下 面 将 对 这 两 个 函数 逐一 进行 讲解 。 

函数 read_map 会 把 标准 输入 数据 流 stain 传 递 来 的 数据 格式 化 成 struct symbol_entry 结 构 
体 数组 ， 其 中 将 涉及 数据 存储 空间 的 创建 、 标 准 输入 数据 流 的 解析 和 重组 等 工作 ， 代 码 清单 16-3 是 
read_map 国 数 的 程序 实现 。 


代码 清单 16-3 ”第 16 章 \ 程 序 \ 程 序 16-1\ 虚 拟 平 台 \script\kallsyms.c 


int read_symbol (FILE *filp,struct symbol_entry *sym entry) 
{ 


char string[100]; 


mole es 
rc = fscanf (filp,"%1lx $c $499s\n",&sym entry->address,&sym entry->type,string); 
站 让 涉 六 名 33 
{ 
if(rc != EOF) 


' 
fgets (string,100,filp); 
return -1; 
} 
sym_entry->symbol = strdup (string); 
sym_entry->symbol_length = strlen(string)+l1; 
return 0; 
} 
void read map (FILE *filp) 
{ 
和 
whilel(!feof (filp)) 
{ 
if(count >= size) 
{ 
size += 100; 
table = realloc(table,sizeof (*table) * size); 


} 


if(read_ symbol (filp,&table[lcount]) == 0) 
Count++; 
} 
for(i = 0;i < count;i++) 


{ 
if(strcmp (table[i] .symbol,"_text") == 0) 
_text = tablel[i] .address; 
if(strcmp (table[i] .symbol,"_etext") == 0) 
_etext = table[i] .address; 
} 
} 


read_map 作 为 数据 解析 函数 首先 会 使 用 realloc 函 数 开辟 存储 空间 ， 使 用 realloc 函 数 而 非 
malloc 国 数 的 优点 是 可 以 动态 调整 内 存 空间 ， 此 处 使 用 sizeof (struct symbol_entry)*100 作 为 
内 存 增 长 的 步 进 单位 。 

随后 再 通过 函数 reaq_symbol 解 析 标 准 输入 数据 流 stain 传 递 来 的 数据 。 鉴于 nm 命令 显示 的 数据 
是 规整 的 ， 故 此 使 用 fscanf 函 数 将 输入 数据 按照 固定 格式 进行 解析 。 如 果 函 数 fscanf 执 行 成 功 则 返 
回 解析 的 参数 个 数 ， 否 则 返回 -1 表示 执行 出 错 ， 即 使 fscanf 执 行 成 功 依然 要 检测 其 返回 的 参数 个 数 
是 否 为 3。 如 果 参 数 个 数 不 为 3， 而 且 后 续 仍 有 数据 传人 ， 则 调用 fgets 函 数 滤 掉 此 行 数据 。 一 旦 函数 
reagd_symbol 匹 配 到 正确 数据 ， 它 就 格式 化 成 struct symbol_entry 结 构 。 

当 标 准 输入 数据 流 stain 传 递 来 的 数据 全 部 被 readq_map 函 数 解 析出 来 后 ，readq_map 函 数 还 会 再 
遍历 一 次 struct symbol_entry 结 构 体 数组 ， 并 记录 下 代码 段 的 起 始 地 址 和 结束 地 址 ， 这 是 为 了 吻 
除 其 他 数据 段 的 标识 符 以 缩小 数据 列表 的 存储 空间 。 

现在 ， 数 据 列表 已 经 准备 就 绪 ， 接 下 来 将 调用 write_src 函 数 建立 数据 列表 文件 。 为 了 让 数据 列 
表 能 够 融入 到 内 核 程序 中 ,我 们 必须 借助 链接 器 将 所 有 编译 后 的 文件 ( 包括 数据 列表 文件 ) 重新 链接 
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在 一 起 ， 生 成 新 的 内 核 程序 。 因 此 用 汇编 文件 来 保存 数据 列表 最 为 妥当 ， 代 码 清单 16-4 便 是 构建 数据 
列表 文件 的 代码 实现 。 


代码 清单 16-4 ”第 16 章 \ 程 序 \ 程 序 16-T\ 虚 拟 平台 \scriptkallsyms.c 


int Symbol _validq(struct symbol_entry *sym_ entry) 


{ 
if((sym entry->address < _text || sym entry->address > _etext)) 
return 0; 
return 1; 
} 
void write_ src (void) 
{ 


unsigned long last_addr; 
Tt. yal lid eNO 
long position = 0; 


printf(".section .rodata\n\n"); 

printf(".globl kallsyms_addresses\n'"); 

Printf(".align 8\n\rn"); 
( 1 


printf("kallsyms_addresses:\n"); 
for(i 0,1last_addr = 0;i < count;i++) 
{ 
if(!symbol_valid(&table[i])) 
continue; 
if(table[i] .address == last_addr) 
continue; 
printf("\t.quad\t%#1llx\n",table[i] .address); 
valid++; 


last_addr = tablel[i] .address; 
} 


putchar ('\n'); 


printf(".globl kallsyms_syms_num\n"); 
printf(".align 8\n\n"); 
printf("kallsyms_syms_num: \n"); 
printf("\t.gquad\t%d\n",valid); 
putchar ('\n'); 
printf(".globl kallsyms_index\n"); 
printf(".align 8\n\n"); 
printf ("kallsyms_index: \n"); 
for(i = 0,1last_addr = 0;i < count;i++) 
{ 
if(!symbol_valid(&table[i])) 
continue; 
if(table[i] .address == last_addr) 
continue; 


printf("\t.gquad\t%$d\n",position); 
position += table[i] .symbol_length; 
last_addr = tablel[i] .address; 

} 

putchar('\n'); 


f(" .9lobl kallsyms_names\n"); 
DElNtf(" .dFLgrn 8 NN ) 3 

f ("kallsyms_names:\n"); 

=s 0 Last -addi S01 .< GOoUnt; TF) 


Es 


Ff (1symbol valid(&table[i])) 

continue; 
f (table[i] .address == last_addr) 

continue; 
printf("\t.asciz\t\"%Ss\"\n",table[il].symbol); 
last_addr = tablel[li] .address; 


jE 


} 
putchar ('\n'); 
} 


从 这 段 代 码 中 可 以 看 出 ， 函 数 write_src 频 繁 使 用 printf 和 putchar 把 数据 列表 发 送 至 标准 输 
出 数据 流 stgaout 中。 此 举 是 为 了 减少 操作 文件 时 的 困扰 ， 从 而 借助 标准 输出 数据 流 作为 周转 。 无 论 
使 用 何 种 方式 ， 最 终 都 会 创建 出 数据 列表 文件 。 此 处 的 函数 symbol_valiq 是 为 了 验证 标识 符 地 址 是 
否 属于 代码 段 空间 ， 而 且 数 据 列 表 的 组 建 过 程 还 会 滤 掉 地 址 相同 的 标识 符 。 

阅读 函数 write_src 显 然 是 一 件 让 人 感觉 头疼 的 事情 ， 如 果 转 而 阅读 它 在 终端 上 显示 的 信息 会 相 
对 轻松 许多 ， 代 码 清单 16-5 是 其 在 终端 上 打印 的 部 分 信息 。 


代码 清单 16-5 ”write_src 函 数 在 终端 上 的 显示 信息 


.Section .rodata 

.globl kallsyms_addresses 

.align 8 

kallsyms_addresses: 
.Guad Oxffff800000100000 
.Guad Oxffff80000010004a 
.Guad Oxffff800000100052 


.Guad 0Oxffff80000010p714 


lobl kallsyms_syms_num 
.align 8 
kallsyms_syms_num: 

.quad 143 


Q 


.globl kallsyms_index 


.align 8 

kallsyms_index: 
.quad 0 
.quad 2 
.quad 18 


.quad 1911 


.globl kallsyms_names 
.align 8 
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.aSciz "_start" 
.aSCiz "switch_seg" 
ys Teal "entry64" 
.asSciz "_etext" 


从 这 段 信息 中 可 知 ， 即 将 生成 的 数据 列表 文 (汇编 文件 ) 会 定义 kallsyms_addresses、 
kallsyms_syms_num、kallsyms_index 以 及 kallsyms_names 这 4 个 标识 符 ， 它们 分 别 用 于 记录 标 
识 符 的 起 始 地 址 、 数 据 列 表 项 数 、 函 数 名 起 始 索 引 和 函数 名 缓冲 区 。 代 码 中 的 伪 指 令 .asciz 用 于 修 
饰 字符 串 数据 ， 它 的 特点 是 在 字符 串 后 面 自动 添加 结束 符 '\0'， 这 也 是 为 什么 子 数 read_symbol 在 
计算 字符 串 长 度 时 使 用 代码 sym_ entry->symbol_length = strlen(string)+1;o 

现在 , 应 用 程序 已 经 实现 , 执行 以 下 编译 脚本 就 可 生成 汇编 文件 kallsyms.S 和 编译 文件 kallsyms.o， 
见 代码 清单 16-6。 


代码 清单 16-6 ”第 16 章 \ 程 序 \ 程 序 16-1\ 虚 拟 平台 \scriptMakefile 


lL 
gcc -o kallsyms kallsyms.c 
nm -n System | ./kallsyms > kallsyms.s 
gcc -cc kallsyms.s 


clean: 
rm -rf kallsyms kallsyms.o kallsyms.s 


当 编 译文 件 kallsyms.o 被 链接 进 内 核 程 序 后 ， 内 核 便 可 访问 其 中 的 数据 ， 代 码 清单 16-7 是 内 核 程序 
对 上 述 4 个 标识 符 的 声明 。 


代码 清单 16-7 第 16 章 \ 程 序 \ 程 序 16- 八 虚拟 平台 \kernel\task.h 


extern unsigned long kallsyms_addresses[] _ attribute _((weak)); 
extern long kallsyms_syms_ num __attribute _((weak)); 

extern long kallsyms_index[] _ attribute _((weak)); 

extern char* kallsyms names _ attribute _((weak)); 


这 4 个 标识 符 的 类 型 虽 有 不 同 ,但 却 都 使 用 弱 引 用 属性 ”attripbute__( (weak) ) 加 以 修饰 。 弱 
引用 属性 的 特点 是 在 链接 期 间 ， 如 果 发 现 目标 标识 符 的 定义 则 引用 ， 如 果 未 发 现 目标 标识 符 的 定义 也 
不 会 报 出 “符号 未 定义 错误 ”。 在 第 一 次 编译 内 核 时 ， 文件 kallsyms.o 还 未 生成 ， 如 果 这 4 个 标识 符 声 明 
不 使 用 弱 引 用 属性 加 以 修饰 的 话 ， 在 内 核 编译 链接 时 就 会 报错 ， 无 法 生成 文件 system。 如 果 它 们 用 
attribute _( (weak) ) 属 性 修饰 ， 在 执行 am 命令 时 会 显示 以 下 内 容 。 


[root@localhost kernel]# nm -n System 
w kallsyms_addresses 
WwW kallsyms_index 
w kallsyms_names 
w kallsyms_syms_num 
0000000000000000 a R15 
0000000000000008 
0000000000000010 a R13 


看 到 这 里 ， 想 必 读 者 已 经 明白 为 什么 必须 检测 fscanf 函 数 返 回 的 参数 个 数 ， 以 及 为 什么 还 要 调 


yo 

WD 
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用 兄 数 fgets 过 滤 掉 整 行 数据 。 

数据 列表 融入 到 内 核 后 ， 还 要 知道 内 核 栈 中 保存 的 函数 返回 地 址 ， 此 处 以 #DE ( 除法 ) 异常 为 例 ， 
来 讲述 函数 异常 触发 地 址 与 栈 中 保存 的 返回 地 址 的 获取 方法 。 当 触发 +fDE 异 常 时 ， 处 理 需 会 调用 
do_qdivide_error 函 数 处 理 异常 ， 在 其 参数 regs 内 会 存 有 触发 异常 的 函数 地 址 。 函 数 的 调用 过 程 通 
常 由 汇编 指令 caLL (或 者 类 似 cALL 指 令 的 汇编 语句 ) 实现 ， 处 理 器 在 执行 CALL 指 令 时 会 将 函数 的 返 
回 地 址 压 人 栈 中 ， 随 后 再 使 用 汇编 代码 pushq %rpp;movq srsp，gstrbp 保 存 旧 栈 帧 ， 并 将 新 栈 帧 更 
新 到 RBP 寄 存 器 。 由 此 可 知 ， 借 助 栈 帧 寄存 器 RBP 可 以 反 向 跟踪 到 函数 的 调用 关系 ， 即 通过 RBP 寄 存 
器 检索 出 上 层 函 数 的 栈 帧 基地 址 ， 而 在 栈 帧 基地 址 之 上 就 保存 着 函数 的 返回 地 址 ， 详 细 程序 实现 请 参 
见 代 码 清单 16-8。 


代码 清单 16-8 ”第 16 章 \ 程 序 \ 程 序 16-1\ 虚 拟 平 台 \kernelvtrap.c 


void backtrace(struct pt_regs * regs) 


{ 


unsigned long *rbp = (unsigned long *)regs->rbp; 
unsigned long ret_address = regs->rip; 
Tn 0 


Color_printk (RED,BLACK, "&kallsyms_addresses:%#0181]x,kallsyms_addresses: 
S$#018]lx\n",&kallsyms_addresses,kallsyms_addresses); 
Color_printk (RED,BLACK, "&kallsyms_syms_num:%#0181x,kallsyms_syms_num:%d\n", 
&kallsyms_syms_num,kallsyms_syms_num); 
Color_printk (RED,BLACK, "&kallsyms_index:%#0181lx\n",&kallsyms_index); 
Color_printk (RED,BLACK, "&kallsyms_names:%#0181x,kallsyms_names:%Ss\n", 
&kallsyms_names,&kallsyms_names); 


color_printk (RED, BLACK, "====================== Kernel Stack Backtrace ========== 
============\n"); 
for(i = 0;i<10;i++) 


{ 
if(lookup_kallsyms (ret_address,1i)) 


break; 
ret_address = *(rbp+1); 
rbp = (unsigned long *)*rbp; 


Color_printk (RED,BLACK, "rbp:%#0181x,*rbp:%#0181x\n",rbp,*rbp); 
} 
} 
void do_divide error(struct pt_regs * regs,unsigned long error_code) 
t 
Color_printk (RED,BLACK, "do_divide error(0),ERROR CODE:%#0181lx\n",error_code); 
backtrace (regs); 
while(1) 


} 

pbacktrace 函 数 中 的 循环 体 负 责 实现 内 核 栈 的 反 向 妃 踪 过 程 ， 目 前 反 向 追踪 的 深度 最 高 可 达 10 
层 ， 其 中 的 函数 1ookup_kallsyms 用 于 检测 回溯 地 址 是 否 有 效 。 检 测 方法 比较 简单 ， 就 是 确认 回 济 
地 址 是 否 落 在 代码 段 的 某 个 函数 内 。 如 果 是 ， 则 打印 函数 的 起 始 地 址 、 返 回 地 址 距离 起 始 地 址 的 偏 移 
量 、 函 数 名 等 信息 ， 完 整 的 函数 实现 如 代码 清单 16-9。 
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代码 清单 16-9 ”第 16 章 \ 程 序 \ 程 序 16- 八 虚拟 平台 \kernel\trap.c 


int lookup_kallsyms (unsigned long address,int level) 
{ 
int index = 0; 
irnit, level .index 三 ”03 
char * string =(char *) &kallsyms_names; 
for(index = 0;index<kallsyms_syms_num; index++) 
if(address > kallsyms_addresses[index] && address <= 
kallsyms_addresses[index+1]) 
break; 
if(index < kallsyms_syms_num) 
{ 
Color_printk (RED,BLACK, "address:%#0181lx \t(+) %04d function:%Ss\n",address, 
address - kallsyms_addresses[index],&string[kallsyms_index[index]]); 
return 0; 
} 
else 
return 1; 


} 
至 此 ,虚拟 平台 下 的 内 核 栈 反 向 跟踪 功能 已 经 实现 ,执行 以 下 命令 可 将 kallsyms.o 文 件 和 其 他 文件 
链接 成 新 的 内 核 程序 ， 见 代码 清单 16-10。 


代码 清单 16-10 ”kallsyms.o 文 件 的 链接 命令 


[root@localhost kernel]# 1d -b elf64-x86-64 -z muldefs -o System head.o entry.o main.o 
printk.o trap.o memory.o interrupt.o task.o sys.o syscalls.o kallsyms.o -T Kernel.l1ds 
[root@localhost kernell]# objcopy -I elf64-x86-64 -S -R ".eh_ frame" -R ".comment" -O 
binary system kernel.bin 


启动 内 核 程序 ， 处 理 器 执行 到 代码 int i = 1/0; 时 会 自动 触发 #DE 异 常 ， 请 读者 根据 图 16-2 描 述 
的 运行 效果 自行 确认 这 名 代码 的 执行 位 置 。 


Bochs x86-64 emulator, http://bochs.sourceforge.net/ 


00013f4e8,end of et 


图 16-2 ”内 核 栈 反 向 跟踪 技术 在 虚拟 平台 下 的 运行 效果 图 
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既然 虚拟 平台 已 经 引入 内 核 栈 反 向 跟踪 技术 ， 它 要 移植 到 物理 平台 并 不 会 花费 太 长 时 间 。 为 了 使 
显示 效果 更 佳 直观 ， 此 处 还 对 物理 平台 下 的 packtrace 和 1lookup_kallsyms 函 数 做 出 略微 调整 ， 代 
码 清 单 16-11 是 移植 后 的 部 分 程序 片段 。 
代码 清单 16-11 第 16 章 \ 程 序 \ 程 序 16-T\ 物 理 平 台 \kernelvtrap.c 


int lookup_kallsyms (unsigned long address,int level) 


if(index < kallsyms_syms_num) 
人 
for(level_index = 0;level_ index < level;level index++) 
Color_printk (RED,BLACK,"");} 
Color_printk (RED,BLACK, "+--->"); 


Color_printk (RED,BLACK, "address:%#0181lx \t(+) %04d function:%Ss\n",address, 
address - kallsyms_addresses[index],&string[kallsyms_index[index]]); 
return 0; 
} 
else 
return 1; 
} 


void backtrace(struct pt_regs * regs) 


for(i = 0;i<10;i++) 
{ 
if(lookup_kallsyms (ret_address,i)) 
break; 
if((unsigned long)rbp < (unsigned long)regs->rsp || (unsigned long)rbp > 
current->thread->rsp0) 
break; 


ret_address = *(rbp+l1); 
rbp = (unsigned long *)*rbp; 
} 
} 


void display_regs (struct pt_regs * regs) 


Color_printk (RED,BLACK, "R8 :%#018lx,R9 :%#0181lx\nR10:%#0181lx,R11:%#0181x\nR12: 
S#0181x,R13:%#0181x\nR14:%#0181x,R15:%#0181]x\n",regs->r8,regs->r9,regs-> 
rl10,regs->rl1l1,regs->r12,regs->rl13,regs->r14,regs->r15); 

backtrace (regs); 


} 

函数 backtrace 中 的 代码 if( (unsigned long)rbp < (unsigned long)regs->rsp || 
(unsigned long)rbp > current->thread->rsp0) 用 于 限制 检索 的 地 址 空间 (内核 层 栈 空间 )， 
以 防止 索引 到 其 他 地 址 空间 的 脏 数 据 。 

为 了 简化 编译 链接 过 程 ， 下 面 将 对 物理 平台 的 编译 脚本 进行 适当 调整 ,使 其 达到 一 步 完 成 所 有 编 
译 链接 工作 的 目的 ， 具 体 调 整 代 码 如 代码 清单 16-12。 
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代码 清单 16-12 ”第 16 章 \ 程 序 \ 程 序 16- 八 物理 平台 \kernel\Makefile 


all: system tmp kallsyms.o 
ld -b elf64-x86-64 -z muldefs -o system head.o entry.o APU_ boot.o main.o printk.o 
trap.o memory.o interrupt.o PIC.o task.o cpu.o keyboard.o mouse.o disk.o SMP.o 
time.o HPET.o softirq.o timer.o schedule.o fat32.0 VFS.o sys.o syscalls.o 
semaphore.o waitqueue.o kallsyms.o -T Kernel.1lds 
objcopy -I elf64-X86-64 -S -R".eh frame" -R ".comment" -0O binary System kernel .bin 


system tmp: head.o entry.o APU_boot.o main.o printk.o trap.o memory.o interrupt.o 
PIC.o task.o cpu.o keyboard.o mouse.o disk.o SMP.o time.o HPET.o softirq.o 
timer.o schedule.o fat32.0 VFS.o sys.o syscalls.o semaphore.o waitqueue.o 
ld -b elf64-x86-64 -z muldefs -o system tmp head.o entry.o APU_boot.o 
main.o printk.o trap.o memory.o interrupt.o PIC.o task.o cpu.o keyboard.o 
mouse.o disk.o SMP.otime.o HPET.o softirdq.o timer.o schedule.o fat32.o VFS.o 
Sys.o syscalls.o semaphore.o waitqueue.o -T Kernel.1ds 


kallsyms.o: kallsyms.c system tmp 
gcc -o kallsyms kallsyms.c 
nm -n system tmp | ./kallsyms > kallsyms.Ss 
gcc -C kallsyms.s 


clean: 
rm -rf x.O *.S~ *.S *.S~ *.cC~ *.h~ System system tmp Makefile~ Kernel.lds~ 
kernel .bin kallsyms kallsyms.o kallsyms.s 


其 实 ， 本 节 使 用 的 内 核 栈 反 向 跟踪 技术 同样 参考 自 Linux 内 核 源码 ， 对 于 分 析 过 Linux 内 核 编译 过 
程 的 读者 大 概 会 明白 ， 从 内 核 编程 生成 临时 文件 .cmp_vmlinux1 到 生成 内 核 程序 valinux 期 间 ， 内 
核 程序 完成 了 内 核 栈 反 向 跟踪 技术 的 组 入 。 

最 后 ， 编 译 好 的 内 核 程序 运行 于 物理 平台 中 ， 图 16-3 是 其 大 致 运行 效果 。 
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图 16-3 ”内 核 栈 反 向 跟踪 技术 在 物理 
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亲爱 的 读者 们 ， 当 你 们 阅读 完 本 书 正文 内 容 时 ， 或 许 会 有 着 然 开 朋 后 的 喜悦 ， 或 许 会 陷入 烧 脑 后 
的 长 思 ， 无 论 是 何 种 感受 ， 我 都 希望 你 们 能 有 所 收获 。 

这 个 操作 系统 的 研发 始 于 2013 年 初 ， 原 本 是 出 于 个 人 兴趣 爱好 ， 历 经 近 两 年 时 间 的 筹备 和 实验 工 
作 后 我 才 开始 所 写本 书 。 尽 管 到 目前 为 止 ， 它 依然 是 个 雏形 ， 仅 能 描绘 出 操作 系统 的 概 狐 ， 但 其 作为 
一 个 可 供 研习 的 例子 已 经 足够 了 。 我 希望 本 书 只 是 本 操作 系统 的 开始 ， 而 不 是 操作 系统 的 全 部 。 当 内 
核能 够 索引 到 全 部 函数 起 始 地 址 后 ， 本 操作 系统 将 进入 一 个 思 新 的 世界 ， 实 现 诸如 异常 处 理 、 动 态 加 
载 等 技术 已 指日可待 。 

本 系统 还 有 很 多 设计 不 足 和 未 实现 的 功能 ， 诸 如: 程序 的 执行 头 结 构 (ELF )、 进 程 间 通 信 、 设 备 
驱动 框架 、 可 动态 挂 载 的 模块 、 图 形 驱 动 与 图 形 库 、 桌 面 环境 、 多 核 调度 与 负载 均衡 等 ,而 且 由 于 PCB 
还 不 够 完善 ， 也 尚且 无 法 使 用 非 固定 映射 区 的 物理 页 ， 限 于 篇 幅 只 能 止步 于 此 。 

一 个 人 的 力量 是 有 限 的 ， 我 希望 我 们 是 一 个 整体 ， 每 位 喜欢 编写 操作 系统 的 人 都 是 其 中 一 员 。 或 
许 经 过 坚持 和 努力 ， 我 们 也 能 写 出 一 个 可 以 应 用 在 生活 中 的 操作 系统 。 一 切 尚未 成 定局 ， 未 来 等 待 我 
们 去 开创 ， 我 在 图 灵 等 你 。 
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术 语 
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中 文 英文 全 称 英文 缩写 / 助 记 名 
全 局 描述 符 表 Global Descriptor Table GDT 
局 部 描述 符 表 Local Descriptor Table LDT 
局 部 描述 符 表 段 描 述 符 Local Descriptor Table Segment Descriptor LDT Segment Descriptor 
局 部 描述 符 表 段 选择 子 Local Descriptor Table Segment Selector LDT Segment Selector 
和 王 务 状态 段 描述 符 Task-State Segment Descriptor TSS Descriptor 
王 务 状态 段 选 择 子 Task-State Segment Selector TSS Selector 
段 王 务 状态 段 Task-State Segment TSS 
理 中 断 描 述 符 表 Interrupt Descriptor Table IDT 
加 中 断 向 量 表 Interrupt Vector Table IVT 
陷阱 门 描述 符 Trap Gate Descriptor 
中 断 门 描述 符 Interrupt Gate Descriptor 
任务 门 描述 符 Task Gate Descriptor 
调用 门 描 述 符 Call Gate Descriptor 
4 级 页 表 Page Map Level 4 (Table) PMLA4(T) 
PMIL4 页 表 项 Page Map Level 4 Entry PML4E 
处 页 目录 指针 表 Page Directory Pointer Table PDPT 
类 PDPT 页 表 项 Page Directory Pointer Table Entry PDPTE 
1 页 目录 表 Page Directory Table PDT 
入 PDT 页 表 项 Page Directory Table Entry PDE 
机 贝 去 Page Table PT 
制 PT 页 表 项 Page Table Entry PTE 
人 冲 存储 器 或 页 表 组 Translation Lookaside Buffer TLB 
8259A 可 编程 中 断 控制 器 8259A Programmable Interrupt Controller 8259A PIC 
中 初始 化 命令 字 Initialization Command Word ICW 
操作 控制 字 Operational Control Word OCW 
站 中 断 屏 项 寄存 带 Interrupt Mask Register IMR 
制 优先 级 解析 器 Priority Resolver PR 
动 结束 中 断 Automatic End of Interrupt AEOI 


附录 术语 表 677 
( 续 ) 
中 文 英文 全 称 英文 缩写 / 助 记名 
全 山 套 模式 Fully Nested Mode FNM 
特殊 全 岗 套 模式 Special Fully Nested Mode SFNM 
高 级 可 编程 中 断 控制 器 Advanced Programmable Interrupt Controller APIC 
本 地 高 级 可 编程 中 断 控 制 右 Local Advanced Programmable Interrupt Controller | Local APIC 
IO 高 级 可 编程 中 断 控制 器 IO Advanced Programmable Interrupt Controller IO APIC 
处 理 器 间 中 断 Inter-Processor Interrupt IPI 
本 地 中 断 向 量 表 Local Vector Table LVT 
本 地 高 级 可 编程 中 断 控制 器 ID | Local Advanced Programmable Interrupt Controller 
寄存 器 Identification RD 
本 地 中 断 向 量 表 Local Vector Table LVT 
错误 状态 寄存 器 Error Status Register ESR 
王 务 优先 权 寄 存 带 Task Priority Register TPR 
断 处 理 器 优先 权 寄存 器 Processor Priority Register PPR 
介 正在 服务 寄存 器 Interrupt Request Register ISR 
各 中 断 请 求 寄 存 咒 In-Service Register IRR 
触发 模式 寄存 器 Trigger Mode Register TMR 
中 断 结束 寄存 器 End-Of Interrupt EOI 
擅 中 断 向 量 寄存 器 Spurious-Interrupt Vector Register SVR 
间接 索引 寄存 右 1/O Register Select IOREGSEL 
数据 操作 寄存 器 IO Window IOWIN 
IO APIC ID 寄 存 器 IOAPIC ID IOAPICID 
IO APIC 版 本 寄存 器 IOAPIC Version IOAPICVER 
eit (简称 Redirection Table ( Entry ) IOREDTBL 
中 断 模 式 配 置 寄存 器 Interrupt Mode Configuration Register IMCR 
Other Interrupt Control Register OIC 
Root Complex Base Address Register RCBA 
对 称 多 处 理 器 Symmetric Multi-Processing SMP 
非 对 称 多 处 理 需 Asymmetric Multi-Processing ASMP 
应 用 处 理 器 Application Processor AP 
引导 处 理 需 BootStrap Processor BSP 
处 理 器 间 中 断 Inter-Processor Interrupt IPI 
得 中 断 命令 寄存 器 Interrupt Command Register ICR 
消息 目标 地 址 Message Destination Address MDA 
逻辑 目标 寄存 器 Logical Destination Register LDR 
标 格式 寄存 器 Destination Format Register DFR 
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( 续 ) 
中 文 英文 全 称 英文 缩写 / 助 记 名 
帧 缓冲 存储 器 〈 简称 帧 缓存 或 te 证 
硬 | 由 在 ) 
实时 时 钟 Real-Time Clock RTC 
备 可 编程 内 部 定时 兢 Programable Interval Timer PIT 
高 精度 事件 定时 器 High Precision Event Timer HPET 
虚拟 文件 系统 Virtual File System VFS 
超级 块 Super Block 
文 目录 项 Directory Entry 
| 数据 区 Data Block 
统 引导 局 区 Boot Sector 
保留 区 域 Reserved Region 
File Allocation Table FAT 
进程 控制 结构 体 Process Control Block PCB 
完全 公平 调度 算法 Completely Fair Schedule CFS 
程 可 移植 操作 系统 接口 Portable Operating System Interface POSIX 
理 开放 系统 接口 X/Open System Interface XSI 
入 主 功 能 号 main-leaf 
子 功能 号 sub-leaf 
Memory Type Range Register MTRR 


Intel 技术 文档 


1. Intel” 64 and IA-32 architectures software developer’s manual combined volumes: 1, 2A,2B,2C,2D,3A， 
3B, 3C, 3D, and 4 

Intel® 64 and IA-32 Architectures Software Developer’s Manual Documentation Changes 

Intel® 64 and IA-32 Architectures Optimization Reference Manual 

82093AA LO ADVANCED PROGRAMMABLE INTERRUPT CONTROLLER (IOAPIC) 
6-chipset-c200-chipset-datasheet 

MultiProcessor Specification 

Intel® 64 Architecture x2APIC Specification 

IA-PC HPET (High Precision Event Timers)Specification 

8259A PROGRAMMABLE INTERRUPT CONTROLLER(8259A/8259A-2) 


其 他 技术 文档 


VESA BIOS EXTENSION (VBE ) Core Functions Standard ( Version: 3.0) 

AT Attachment 8- AIA/ATAPI Serial Transport ( ATA8-AST ) 

AT Attachment 8- ATA/ATAPTI Parallel Transport ( ATA8-APT ) 

AT Attachment 8- ATA/ATAPI Command Set ( ATA8-ACS) 

AT Attachment 8- ATA/ATAPI Architecture Model ( ATA8-AAM ) 

AT Attachment with Packet Interface—7Volume 1 - Register Delivered Command Set, Logical Register Set 

(ATA/ATAPI-7 V1) 

7. AT Attachment with Packet Interface—7Volume 2 - Parallel Transport Protocols and Physical Interconnect 
(ATA/ATAPI-7 V2) 

8. AT Attachment with Packet Interface 一 7Volume 3 - Serial Transport Protocols and Physical Interconnect 
(ATA/ATAPI-7 V3) 

9. Microsoft Extensible Firmware Initiative FAT32 File System Specification 


0 OT 


oo 


10. Standard for Information Technology—Portable Operating System Interface (POSIX")Base Definitions 
11. Standard for Information Technology—Portable Operating System Interface (POSIX™)Base Specifications, 
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成 力图 灵 作 译 者 司 各 
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图 灵 教 育 是 国内 计算 机 图 书 最 有 影响 力 的 高 端 品牌 之 一 。 国 mw]| 口 | 
公司 始终 以 策划 高 质量 的 科技 图 书 为 核心 业务 ， 成 立 11 年 以 
来 ， 累 计 销 售 图 书 已 达 1000 多 万 册 ， 影 响 了 数 百 万 读者 。 


图 灵 社区 是 图 灵 教 育 旗下 的 综合 性 服务 平台 ， 集 图 书 内容 生 he 
产 、 作 译 者 服务 、 电 子 书 销售 、 技 术 人 十 交流 于 一 体 。 经 过 不 断 。 国 ] 中 二 4 
探索 实践 ， 图 灵 社 区 已 经 成 长 为 国内 最 受 欢迎 的 |T 类 电子 书 销售 。 回复 “ 书 单 " 查看 更 多 好 书 


人 
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图 灵 教育 拥有 一 支 优秀 的 策划 和 编辑 团队 ， 秉 承 长 期 坚守 的 
质量 意识 和 服务 意识 ， 为 读者 出 版 了 大 量 畅销 书 和 经 典 书 。 翻 开 
我 们 出 的 每 一 本 书 ， 你 都 能 看 到 醒目 的 一 句 话 : “站 在 巨人 的 户 
上 。” 这 既是 志 存 高 远 的 目标 ， 也 是 拒绝 庸俗 的 警示 。 这 就 是 图 
灵 人 孜孜 以 求 的 境界 。 


我 们 诚 邀 业内 高 水 平 的 专业 技术 人 士 成 为 图 灵 的 作者 和 译 
者 ， 共 同 为 上 技术 发 展 奉献 力量 。 图 灵 庄 重 承诺 ， 将 利用 自身 的 
平台 和 渠道 ， 通 过 多 种 途径 拓展 作 译 者 的 影响 力 ， 以 书 为 媒 ， 为 
作 译 者 本 人 也 为 整个 社会 创造 价值 。 


我 们 在 微 博 : @ 图 灵 教 育 @ 图 灵 新 知 @ 图 灵 社区 


我 们 在 微 信 : 图 灵 教 育 (turingbooks ) 图 灵 访 谈 (ituring_interview ) 
读者 俱乐部 : 218139230 (QQ | 群 ) 164939616 (QQ1I 群 ) 


扩 木 改变 世界 ' 阅读 塑造 人 生 


30 天 自制 操作 系统 


只 需 30 天 ”从 零 开 始 编写 一 个 五 脏 俱 全 的 图 形 操作 系统 

令 39.1KB 迷 你 系统 ”实现 多 任务 、 汉 字 显 示 、 文 件 压缩 ， 还 能 听 歌 看 
图 玩 游戏 

人 日 本 编程 天 才 揭 开 CPU、 内 存 、 磁 盘 以 及 操作 系统 底层 工作 模式 
的 神秘 面纱 

作者 : 川 合 秀 实 

译 者 : 周 自 恒 李 黎 明 等 


自制 搜索 引擎 


令 2600 行 代码 ， 真 实体 验 搜索 引擎 的 开发 过 程 
人 开源 搜索 引擎 Senna/Groonga 的 开发 者 亲自 执笔 
令 探 明 Google、 百 度 背 后 的 工作 机 制 
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作者 : 山田 浩 之 ， 末 永 匡 
译 者 : 胡 屹 
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自制 编程 语言 

4 只 需 编程 基础 

4 从 零 开 始 自制 编程 语言 

4 支持 面向 对 象 、 异 常 处 理 等 高 级 机 制 


作者 : 前 桥 和 弥 
译 者 : 刘 卓 徐 谦 吴 雅明 


Mm EY snana 县 
| = 年 
脚本 语言 令 只 需 14 天 ， 从 零 开始 设计 和 实现 脚本 语言 要 
E 人 令 从 解释 器 到 编译 器 ， 支 持 函 数 、 数 组 、 对 象 等 高 级 功能 
v 4 令 东京 大 学 & 东 京 工业 大 学 教授 执笔 
| 人 日 本 编译 器 权威 专家 中 田 育 男 作 序 推荐 


作者 : 干 叶 滋 
译 者 : 陈 筱 烟 


“自制 ”查看 相关 书 单 


回复 
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微 博 连接 - 


关注 @ 图 灵 教育 每 日 分 享 上 IT 好 书 


名 


QQ 连接 


妈 灵 读者 官方 群 I: 218139230 
灵 读 者 官方 群 [: 164939616 


加 


辐 灵 社区 
iTuring.cn 
在 线 出 版 ,电子 书 ,《 码 农 》 杂 志 , 图 灵 访 谈 


经 历 了 数 十 年 的 发 展演 化 ， 操 作 系统 创新 的 步伐 变 得 越 帮 缓慢。 时 至 今日 ， 那 些 葛 定 现代 操作 系统 的 功能 特性 已 经 基本 
稳定 ， 近 年 来 并 无 根本 性 的 创新 。 而 另 一 方面 ，Linux 开源 社区 变 得 越 来 越 庞大 ， 代 码 依旧 迅速 演进 且 纷 繁 庞杂 。 因 此 ， 想 要 
通过 阅读 Linux 内 核 源 代码 ， 深 入 地 学 习 和 掌握 操作 系统 内 核 的 设计 和 工作 原理 ， 已 经 成 为 一 件 很 有 挑战 的 事情 。 尽 管 市 面 上 
关于 操作 系统 及 Linux 内 核 的 经 典 图 书 层出不穷 ， 然 而 ，“ 纸 上 得 来 终 觉 浅 ”。 如 果 能 够 在 阅读 经 典 图 书 之 外 亲自 动手 实 
践 ， 深 刻 领悟 操作 系统 如 何 与 硬件 交互 、 如 何 管理 硬件 资源 ， 那 将 对 理解 操作 系统 的 设计 与 原理 大 有 助 益 。 

本 书 从 实现 最 简 64 位 操作 系统 的 基本 功能 入 手 ， 提 供 了 一 个 Linux 源码 以 外 的 全 新 视角 ， 让 读者 通过 动手 实践 ， 对 操 
作 系 统 和 X86 体 系 结构 有 基本 了 解 ， 从 而 对 操作 系统 的 设计 与 原理 有 更 全 面 的 领悟 。 


一 一 Oliver Yang ( 杨 勇 ) 
阿里 云 系 统 软件 高 级 专家 


本 书 采用 循序 渐进 的 方式 实现 了 一 个 64 位 多核 操作 系统 雏形 。 这 个 操作 系统 历经 初级 篇 的 Bochs 虚 拟 机 和 高 级 篇 的 笔 
记 本 电脑 两 个 阶段 编写 而 成 ， 实 现 过 程 环 环 相 扣 。 作 者 不 但 将 操作 系统 相关 理论 知识 实践 化 ， 还 讲述 了 开发 过 程 中 遇 到 的 
问题 及 解决 方案 。 本 书 更 突出 的 一 个 特点 是 ， 作 者 还 将 诸多 Linux 内 核 的 设计 思想 融入 其 中 ， 这 使 得 读者 在 阅读 完 本 书后 
更 容易 理解 Linux 内 核 的 整体 结构 与 运行 脉络 。 


一 一 宋 宝 华 
Linux 内 核资 深 技术 专家 ，《Linux 设 备 驱动 开发 详解 》 作 者 


作者 利用 5 章 不 到 200 页 的 篇 幅 ， 迅 速 带领 读者 完成 了 一 个 小 而 完整 的 操作 系统 原型 ， 这 能 够 让 读者 树立 持续 下 去 的 
信心 ， 不 至 于 半途 而 废 。 接 下 来 ， 作 者 不 断 完善 这 个 原型 ， 使 得 它 具备 现代 操作 系统 的 很 多 特性 ， 并 将 操作 系统 的 几 个 基 
本 方面 全 部 展现 给 读者 。 这 是 一 本 非常 不 错 的 讲述 操作 系统 设计 与 实现 的 书 。 


一 一 赵 塞 舌 
保 准 牛 CTO，《Linux 就 是 这 个 范 儿 》 作 者 


动手 写 操作 系统 一 直 是 我 在 大 学 时 候 的 一 个 梦想 ， 可 惜 这 么 多 年 来 一 直 没有 实现 。 现 在 loT 以 及 智能 设备 的 热潮 给 国 
产 操作 系统 带 来 很 大 的 发 展 机 遇 ， 国 内 很 多 企业 都 在 定制 和 实现 自己 的 庶 入 式 操 作 系统 。 很 高 兴 看 到 《一 个 64 位 操作 系统 
的 设计 与 实现 》 的 出 版 ， 这 本 书 实现 了 一 个 基于 Intel 64 位 多 核 处 理 器 且 融 入 许多 Linux 内 核 设 计 思 想 的 操作 系统 ， 必 定 对 
热爱 操作 系统 的 朋友 大 有 神 益 。 


一 一 笨 叔 叔 
《奔跑 吧 Linux 内 核 》 作 者 
ISBN 978-7-115-47525-1 
图 灵 社 区 : iTuring.cn | ‖ | 
微 博 : @ 图 灵 教 育 @ 图 灵 社 区 Me 9 787115 475251 > 
计算 机 /操作 系统 | A ISBN 978-7-115-47525-1 
人 民 邮 电 出 版 社 网 址 . www.ptpress.com.cn 定价 : 139.00 元 


看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 
译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


